資料介紹
Zillow(房產估價網站)和Kaggle最近組織了一項100萬美元的競賽來改進Zestimate(Zillow自行開發的一套計算機系統)。此教程使用了H2O的AutoML生成解決方案的公共Domino項目。
新的Kaggle Zillow Price競賽獲得了大量的媒體關注。正如他們在競賽描述中說的,改進這一估計可以更準確地影響美國近1.1億家庭的價值!
此教程采用的是一個腳本take_my_job.R,它使用了令人吃驚的H2O AutoML框架。
H2O的機器學習庫是行業的領導者,他們最近將AI推向大眾的是AutoML功能。通過單個函數調用,它可以并行地訓練許多模型,將它們集合在一起,并構建強大的預測模型。
代碼只有36行:
01library(data.table)
02library(h2o)
03
04data_path 《- Sys.getenv(“DOMINO_EARINO_ZILLOW_HOME_VALUE_PREDICTION_DATA_WORKING_DIR”)
05
06properties_file 《- file.path(data_path, “properties_2016.csv”)
07train_file 《- file.path(data_path, “train_2016.csv”)
08properties 《- fread(properties_file, header=TRUE, stringsAsFactors=FALSE,
09 colClasses = list(character = 50))
10train 《- fread(train_file)
11
12properties_train = merge(properties, train, by=“parcelid”,all.y=TRUE)
在前12行中,設置了開發環境,并將數據導入為R data.table對象。使用第4行中的Domino環境變量功能,無需對腳本中的任何路徑進行硬編碼,因為硬編碼路徑通常會導致重大挑戰。
在第12行,通過將屬性文件與訓練數據集合并創建訓練集,其中包含我們將要預測的logerror列。
14h2o.init(nthreads = -1)
15
16Xnames 《- names(properties_train)[which(names(properties_train)!=“logerror”)]
17Y 《- “logerror”
18
19dx_train 《- as.h2o(properties_train)
20dx_predict 《- as.h2o(properties)
21
22md 《- h2o.automl(x = Xnames, y = Y,
24 training_frame = dx_train,
25 leaderboard_frame = dx_train)
這個代碼塊是利用H2O的AutoML基礎設施所需要的!
在第14行,我們正在初始化H2O以使用與機器有核心一樣多的線程。第16和17行用于設置預測變量和響應變量的名稱。在第19和20行,我們將我們的data.table對象上傳到H2O(首先可以避免使用h2o.importFile)。在第22-25行中,我們告訴H2O在訓練數據集上建立我們可以使用RMSE作為早期停止度量的最好的模型。
27properties_target《- h2o.predict(md@leader, dx_predict)
28predictions 《- round(as.vector(properties_target$predict), 4)
29
30result 《- data.frame(cbind(properties$parcelid, predictions, predictions * .99,
31 predictions * .98, predictions * .97, predictions * .96,
32 predictions * .95))
33
34colnames(result)《-c(“parcelid”,“201610”,“201611”,“201612”,“201710”,“201711”,“201712”)
35options(scipen = 999)
36write.csv(result, file = “submission_automl.csv”, row.names = FALSE )
在第27行,我們使用訓練有素的AutoML對象來預測我們的回應。然后,我們將答案舍入為4位精度,構建結果數據框架,設置名稱并寫出來。
掛羊頭賣狗肉,我們添加的只有1位是1%,收縮在每一行的LOGERROR,并假設Zillow的團隊總是使他們的模型更好一點。
在沒有任何輸入的情況下,這個包建立一個提供公開排行榜得分的模型0.0673569。這不驚人,但是考慮到我甚至沒有看過數據,這是非常出色的。匯集H2O的算法以及靈活的可擴展計算和易于環境配置的Domino使該項目快速簡便!
自己動手嘗試
歡迎您分享這個公共項目,將其作為起點,然后操作它。只需點擊幾下,代碼和環境就可以在Domino上使用。
不幸的是,根據Kaggle的嚴格規定,我們無法為您提供數據。為了使用數據,您將必須:轉到Kaggle數據頁并下載。
將其上傳到Domino數據項目或直接插入到您的分支項目中。
修改第4行take_my_job.R以設置文件的基本路徑。如果你只是把它放到你的項目中,只需將它設置為“。/”,如果你正在使用一個數據項目,只需修改我引用的環境變量。
雖然手動制作的解決方案在Kaggle排行榜上的得分明顯優于這種解決方案,但仍然令人興奮的是,全自動化解決方案的效果相當不錯。全自動數據科學的未來令人期待,我們迫不及待地繼續支持社區開發的驚人工具!
- PyTorch教程5.7之在Kaggle上預測房價
- C語言串口通信-源代碼pdf免費下載 24次下載
- 手機固件系統免費軟件程序下載 21次下載
- 基于圖論原理的互操作性模型改進方法 17次下載
- python設計一個簡單推薦系統的資料和完整代碼 14次下載
- 結合動態行為和機器學習的惡意代碼檢測方法 11次下載
- python文件讀取的源代碼免費下載 20次下載
- 安卓系統的源代碼免費下載 4次下載
- TAS5708評估板的電路原理圖免費下載 17次下載
- 學生信息管理系統的應用程序和源代碼與工程文件免費下載 22次下載
- 如何使用改進GM模型進行房價預測模型資料說明 7次下載
- 如何通過pandas讀取csv文件指定的前幾行? 16次下載
- 代碼編寫器Studio的新的和改進的特性詳細概述 1次下載
- 一種改進算法的低功耗嵌入式系統代碼壓縮設計 0次下載
- 基于改進雷達圖法的光伏并網發電系統穩態電能質量綜合評估 0次下載
- 使用Python進行圖像處理 260次閱讀
- 代碼結構分析 3720次閱讀
- Python版超市管理系統源代碼 1761次閱讀
- 壓縮空氣系統改進的思路分享 1535次閱讀
- 系統演示平臺簡化了從評估到原型設計的過渡 809次閱讀
- 代碼覆蓋率工具的重要性 1491次閱讀
- 如何在NVIDIA GPU上實現基于embedding 的深度學習模型 1901次閱讀
- VScode編譯器如何配置C/C++編譯環境 5662次閱讀
- 為什么給Java代碼加個空行class文件就識別不出來了 2767次閱讀
- 使用C語言實現萬年歷星期速算法的源代碼免費下載 3210次閱讀
- AirPods Pro的延遲改進測試 6408次閱讀
- 如何使用代碼清除STM32單片機上的PCROP 4163次閱讀
- Python爬取趕集網北京二手房數據&R對爬取的二手房房價做線性回歸分析 3935次閱讀
- 基于傳統雙LCL型WPT系統的改進型無線電能傳輸系統研究設計 3534次閱讀
- 70行代碼來打造MCU性能分析利器! 4161次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 92次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7藍牙設備在嵌入式領域的廣泛應用
- 0.63 MB | 3次下載 | 免費
- 89天練會電子電路識圖
- 5.91 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論