在一篇新論文中,Frankle及其同事發現了潛伏在BERT中的此類子網,BERT是一種用于自然語言處理(NLP)的先進神經網絡方法。作為人工智能的一個分支,NLP旨在通過預測文本生成或在線聊天機器人等應用程序來解密和分析人類語言。在計算方面,BERT體積龐大,通常需要大多數用戶無法獲得的超級計算能力。從而可能使更多用戶在智能手機上開發有效的NLP工具。
弗蘭克勒說:“我們正在達到必須使這些模型更精簡,更高效的地步。”他補充說,這一進步有一天可能會“減少NLP的準入門檻”。
麻省理工學院計算機科學與人工智能實驗室的邁克爾·卡賓小組的博士生Frankle是該研究的共同作者,該研究將于下個月在神經信息處理系統會議上發表。德克薩斯大學奧斯汀分校的陳天龍是該論文的主要作者,其中包括得克薩斯州A&M的合作者Wang Zhangyang Wang,以及所有MIT-IBM Watson AI Lab的常石宇,劉思佳和張揚。
您今天可能已經與BERT網絡進行了互動。這是Google搜索引擎的基礎技術之一,自Google于2018年發布BERT以來,它一直引起研究人員的興奮。BERT是一種創建神經網絡的方法-使用分層節點或“神經元”的算法來學習執行通過培訓大量實例來完成一項任務。
BERT是通過反復嘗試填寫寫作段落中遺漏的單詞來進行訓練的,它的功能在于此初始訓練數據集的龐大大小。然后,用戶可以將BERT的神經網絡微調至特定任務,例如構建客戶服務聊天機器人。但是爭吵的BERT需要大量的處理能力。
弗蘭克爾說:“如今,標準的BERT模型-園林品種-具有3.4億個參數,”他補充說,這個數字可以達到10億。對如此龐大的網絡進行微調可能需要一臺超級計算機。“這簡直太貴了。這遠遠超出了您或我的計算能力。”
為了削減計算成本,Chen和他的同事試圖找出隱藏在BERT中的較小模型。他們通過迭代修剪整個BERT網絡的參數進行了實驗,然后將新子網的性能與原始BERT模型的性能進行了比較。他們對一系列NLP任務進行了此比較,從回答問題到填充句子中的空白詞。
責任編輯:lq
-
神經網絡
+關注
關注
42文章
4812瀏覽量
103321 -
人工智能
+關注
關注
1806文章
48955瀏覽量
248433 -
自然語言處理
+關注
關注
1文章
628瀏覽量
14110
發布評論請先 登錄
TPS62684 1600mA 高效降壓轉換器,針對小尺寸解決方案進行了優化數據手冊

DigiKey 應用與技術門戶平臺已針對亞太地區進行了本地化
DLP6500獲得的點云數目不多是什么原因造成的?
使用ADS1198-FE下載了軟件按照說明進行了調試,出現了兩個問題求解決
高壓SiC針對電動汽車長途卡車運輸中的兆瓦級充電進行了優化

MDK_ECGSystem_C55515EVM在excel上簡單對數據進行了下濾波模擬,出來的波形顯示50hz完全沒有被濾掉,為什么?
FPGA通過SPI對DAC進行了配置,用頻譜儀測不到輸出是怎么回事?
請問怎么檢查ADS1299已經初始化好了呢?
思爾芯與您相約上海,這份ICCAD-Expo 2024互動指南請查收

TSW14J58EVM數據轉換軟件HSDC pro報錯的原因?
TLV320AIC3106IRGZT隨著PGA音量的抬高是不是同時將底噪也進行了放大?
石墨烯基導電油墨具有良好的滲透性和低阻抗,針對 RFID天線性能進行了優

評論