隨著深度學習模型在現(xiàn)實世界中的業(yè)務應用中變得越來越流行以及訓練數(shù)據(jù)集變得越來越大,機器學習(ML)基礎結(jié)構(gòu)正成為許多公司中的關(guān)鍵問題。
為了幫助您了解ML基礎架構(gòu)的最新研究進展,我們總結(jié)了最近在該領(lǐng)域引入的一些最重要的研究論文。閱讀這些摘要時,您將可以從領(lǐng)先的科技公司(包括Google,Microsoft和LinkedIn)的經(jīng)驗中學習。
我們選擇的論文涵蓋了數(shù)據(jù)標簽和數(shù)據(jù)驗證框架,用于ML模型的分布式訓練的不同方法,用于跟蹤生產(chǎn)中ML模型性能的新穎方法等等。
標記培訓數(shù)據(jù)越來越成為部署機器學習系統(tǒng)的最大瓶頸。我們展示了Snorkel,這是首創(chuàng)??的系統(tǒng),它使用戶能夠訓練最先進的模型而無需人工標記任何訓練數(shù)據(jù)。相反,用戶編寫了表示任意試探法的標簽函數(shù),這些試探法可能具有未知的準確度和相關(guān)性。通過整合我們最近提出的機器學習范例數(shù)據(jù)編程的第一個端到端實現(xiàn),Snorkel對輸出進行了降噪處理而無須了解真實情況。我們根據(jù)過去一年與公司,代理商和研究實驗室的合作經(jīng)驗,提供了一個靈活的接口層來編寫標簽功能。在用戶研究中,主題專家構(gòu)建模型的速度提高了2.8倍,平均預測性能提高了45倍。相對于7個小時的手工貼標,為5%。我們研究了在這種新設置中的建模權(quán)衡,并提出了用于自動權(quán)衡決策的優(yōu)化器,該優(yōu)化器可使每次管道執(zhí)行的速度提高1.8倍。通過與美國退伍事務部和美國食品與藥物管理局的兩次合作,在代表其他部署的四個開源文本和圖像數(shù)據(jù)集上,Snorkel的預測性能比以前的啟發(fā)式方法平均提高了132%,并且不超過大型手工策展訓練集的預測性能的3.60%。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4379瀏覽量
64646 -
機器學習
+關(guān)注
關(guān)注
66文章
8500瀏覽量
134420
發(fā)布評論請先 登錄
分析智慧園區(qū)建設的關(guān)鍵問題
人形機器人設計中,哪些關(guān)鍵部位需要功率器件?典型電壓/電流參數(shù)如何設計?
小白學解釋性AI:從機器學習到大模型

嵌入式機器學習的應用特性與軟件開發(fā)環(huán)境

如何選擇云原生機器學習平臺
zeta在機器學習中的應用 zeta的優(yōu)缺點分析
cmp在機器學習中的作用 如何使用cmp進行數(shù)據(jù)對比
江智公司持續(xù)沉淀增強機器人產(chǎn)業(yè)關(guān)鍵技術(shù)核心競爭力

什么是機器學習?通過機器學習方法能解決哪些問題?

評論