女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NLP遷移學習面臨的問題和解決

汽車玩家 ? 來源: AI公園 ? 作者:Muhammad Khalifa ? 2020-05-04 12:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

NLP遷移學習中的一些問題,感覺有點道理。

自然語言處理(NLP)最近取得了巨大的進步,每隔幾天就會發(fā)布最新的結(jié)果。排行榜瘋狂是指最常見的NLP基準,如GLUE和SUPERGLUE,它們的得分越來越接近人類的水平。這些結(jié)果大多是通過超大(數(shù)十億個參數(shù))模型從大規(guī)模數(shù)據(jù)集中遷移學習得到的。本文的目的是指出遷移學習面臨的問題和挑戰(zhàn),并提出一些可能的解決方法。

計算量

目前NLP中最成功的遷移學習形式是序列遷移學習(STL),通常采用語言預訓練的形式(https://arxiv.org/abs/1801.06146)。最近幾乎所有的SOTA結(jié)果主要是由兩步方案驅(qū)動的:

大型通用語料庫上進行語言模型的建模(數(shù)據(jù)越多越好)。

Finetune目標任務上的模型(或其子集)。

ELMO, BERT, GPT, GPT-2, XLNET and RoBERTa是都是用的同樣的技術。這些方法的一個主要問題是巨大的資源需求。我所說的資源是指數(shù)據(jù)和計算能力。例如,據(jù)估計,在512個TPU v3芯片上訓練XLNET大約需要25萬美元,相比于在3/4的數(shù)據(jù)集中訓練的BERT,只提升了1-2%。

這就引出了下一個問題:

難以復現(xiàn)

可復現(xiàn)性已經(jīng)成為機器學習研究中的一個問題。例如,Dacrema et al.)分析了18個不同的基于神經(jīng)的推薦系統(tǒng),發(fā)現(xiàn)其中只有7個經(jīng)過合理的努力是可復現(xiàn)的。一般來說,為了能夠使用或建立在一個特定的研究理念,這個理念必須易于復現(xiàn)。由于需要大量的計算資源來訓練這些巨大的NLP模型并復現(xiàn)它們的結(jié)果,小型科技公司、初創(chuàng)公司、研究實驗室和獨立研究人員將無法競爭。

不再需要排行榜的任務

Anna Rogers在她的博客文章為什么“更多的數(shù)據(jù)和計算= SOTA”不是研究新聞。她認為,排行榜的主要問題在于,一個模型的排名完全取決于它的任務分數(shù),而沒有考慮到達到這個分數(shù)所需的數(shù)據(jù)量、計算量或訓練時間。

Rohit Pgarg建議在任務精度和計算資源的二維尺度上比較模型的性能。請看下面的圖表。我建議我們添加另一個維度,它對應于模型訓練時候的數(shù)據(jù)量。但是,這種可視化并不能洞察哪種模型通常更好。還有Alexandr Savinov的一個非常有趣的評論,他建議使用算法能夠在一單位CPU時間內(nèi)將多少輸入信息“打包”到一單位輸出(模型參數(shù))表示中。

NLP遷移學習面臨的問題和解決

在比較模型性能時,使用計算資源作為任務準確性的額外度量

這不像是我們學習的方式

孩子們通過嘈雜、模糊的輸入和極少的監(jiān)督來學習語言。一個孩子只要接觸一個單詞幾次,就能開始理解它的意思。這與STL設置中使用的訓練前步驟非常不同,在STL設置中,模型需要查看數(shù)百萬個上下文,其中包括一個特定的單詞,以掌握該單詞的含義。一個非常重要的問題是,是否可以只從原始文本中學習語義而不受任何外部監(jiān)督。如果你對關于這個話題的twitter辯論感興趣,請訪問這個帖子:https://twitter.com/jacobandreas/status/1023246560082063366。如果答案是否定的,那就意味著在訓練前,這些模型實際上并沒有給他們真正的語言理解能力。然而,我們在日常生活中確實使用了遷移學習。例如,如果我們知道如何駕駛一輛手動汽車,我們就很容易利用所學的知識(如使用剎車和油門踏板)來駕駛一輛自動汽車。但這是人類學習語言的必經(jīng)之路嗎?不太可能。然而,有人可能會說,只要一種方法能產(chǎn)生好的結(jié)果,它是否與人類的學習方式相似實際上并不重要。不幸的是,這些模型產(chǎn)生的一些好的結(jié)果是有問題的,我們將在下一節(jié)看到。

從另一個角度來看,人類在語言學習上采取了一種持續(xù)終生的學習方式。每當我們學習一個新任務時,這種學習通常不會干擾之前學習過的任務。另一方面,當新的訓練數(shù)據(jù)的分布發(fā)生變化的時候,普通的只在一個任務上訓練過的機器學習模型(包括遷移學習方法)通常不能利用過去學到知識,這種現(xiàn)象稱為災難性的遺忘。

膚淺的語言理解

語言建模任務的確是一個復雜的任務。例如這個句子:“The man in the red shirt is running fast. He must be…”,為了讓模型完成這句話,模型必須理解running fast通常意味著being in a hurry。那么這些預先訓練過的模型到底能理解多少語言呢?不幸的是,事實并非如此。Niven et al., 2019分析了BERT在論證推理和理解任務(ARCT)上的表現(xiàn)。ARCT可以這樣描述:給定一個聲明和一個推理,任務是選擇正確的證據(jù),而不是另一個干擾項。正確的證明應符合,而其他證明應符合。參見下圖。

NLP遷移學習面臨的問題和解決

論證和理解任務的范例

值得一提的是,BERT在這項任務中獲得了極具競爭力的77%的準確性,僅比人類基線低3分。首先,這說明BERT有很強的推理能力。為了進一步調(diào)查,Niven et al., 2019使用了所謂的“探針”。也就是說,他們在這個任務上對BERT進行了finetune,但是對BERT的輸入只是正確的和可選的證據(jù),而沒有暴露它的聲明或推理。假設是,如果BERT依賴證據(jù)中的一些統(tǒng)計線索,即使他只看到證據(jù)而沒有其他信息,他也應該表現(xiàn)良好。有趣的是,他們的研究結(jié)果顯示,與使用推理和聲明相比,他們的準確率僅下降了6%。這表明,BERT實際上并沒有進行任何類型的推理,但證明本身有足夠的線索,使BERT能夠達到如此高的準確性。值得注意的是,用一個沒有BERT所依賴的這些線索的對抗性的測試集代替了這個測試集,BERT只能達到53%的正確率,剛好高于隨機概率。

另一篇相關論文是“Can a Machine Really Finish your Sentence?”(Zellers et al., 2019)。他們考慮的是常識自然語言推理的任務,即機器應該選擇最可能的后續(xù)語句。例如,給定句子:“the team played so well”,系統(tǒng)應該選擇“They won the game”作為后續(xù)。作者認為,盡管BERT能夠達到86%的正確率(僅比人類基線低2點),如此高的正確率并不是由于BERT的高級推理形式,而是由于BERT學會了識別數(shù)據(jù)集特有的分布偏差。他們發(fā)現(xiàn),通過對抗性篩選(一種旨在為任何可能的訓練、測試分割生成對抗性數(shù)據(jù)集的技術)創(chuàng)建一個更困難的數(shù)據(jù)集(HellaSwag), BERT準確率下降到53%。本文討論了數(shù)據(jù)集性能和任務性能之間的細微差別。對特定任務的數(shù)據(jù)集執(zhí)行得非常好并不意味著解決了底層任務。

NLP遷移學習面臨的問題和解決

BERT在SWAG上的表現(xiàn)與HellaSwag相比

很明顯,這里發(fā)生了一些事情。是否可能BERT的好結(jié)果實際上是由它利用各種分布線索和偏差劫持目標數(shù)據(jù)集的能力驅(qū)動的?對BERT的研究結(jié)果進行更多的調(diào)查能得出其他類似的發(fā)現(xiàn)和結(jié)論嗎?如果是這樣,我相信我們不僅需要建立更好的模型,還需要建立更好的數(shù)據(jù)集。我們需要的數(shù)據(jù)集能夠真實地反映底層任務的困難,而不是讓模型很容易達到欺騙的準確性和排行榜分數(shù)。

高碳不環(huán)保

信不信由你,但是訓練這些壯觀的模型對環(huán)境有負面影響。Strubell等人比較了訓練大型Transformer架構(gòu)產(chǎn)生的 排放與其他來源造成的排放。令人驚訝的是,使用神經(jīng)結(jié)構(gòu)搜索訓練單個Transformer arhcitectue所釋放的 大約是一輛汽車一生所釋放的 的6.0倍。

NLP遷移學習面臨的問題和解決

Schwartz等人介紹了他們所謂的“綠色人工智能”,這是一種實踐,使人工智能更加“高效”和“包容”。與我們上面討論的類似,他們強烈建議除了任務準確性之外,還應該增加效率。他們還認為,研究論文有必要包括“價格標簽”或模型訓練的成本。這將鼓勵對更高效、更少資源需求的模型架構(gòu)的研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22580
  • 遷移學習
    +關注

    關注

    0

    文章

    74

    瀏覽量

    5716
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    從Keil MDK到IAR EWARM:通過工程遷移實現(xiàn)項目資產(chǎn)的更好管理

    對于需要統(tǒng)一開發(fā)環(huán)境或涉及多核架構(gòu)(如Cortex-A/R)的項目,越來越多的用戶選擇從Keil MDK遷移到IAR EWARM。這就會面臨著需要將之前的Keil MDK工程遷移到IAR EWARM的問題。本文將介紹如何高效完成
    的頭像 發(fā)表于 05-08 09:03 ?465次閱讀
    從Keil MDK到IAR EWARM:通過工程<b class='flag-5'>遷移</b>實現(xiàn)項目資產(chǎn)的更好管理

    AKI跨語言調(diào)用庫神助攻C/C++代碼遷移至HarmonyOS NEXT

    ,真正做到所“鍵”即所得。 這一創(chuàng)新框架的出現(xiàn),正是為了解決開發(fā)者在遷移C/C++項目到HarmonyOS NEXT時面臨的核心痛點。傳統(tǒng)的NAPI接口調(diào)用復雜,學習成本高,開發(fā)者需要耗費大量精力進行適配
    發(fā)表于 01-02 17:08

    HarmonyOS Next 應用元服務開發(fā)-應用接續(xù)動態(tài)配置遷移保持遷移連續(xù)性

    保證遷移連續(xù)性,由于遷移加載時,目標端拉起的應用可能執(zhí)行過自己的遷移狀態(tài)設置命令(如:冷啟動時目標端在onCreate中設置了INACTIVE;熱啟動時對端已打開了不可遷移的頁面,
    發(fā)表于 12-30 10:30

    HarmonyOS Next 應用元服務開發(fā)-應用接續(xù)動態(tài)配置遷移按需遷移頁面

    按需遷移頁面棧,支持應用動態(tài)選擇是否進行頁面?;謴停J進行頁面棧信息恢復)。如果應用不想使用系統(tǒng)默認恢復的頁面棧,則可以設置不進行頁面棧遷移,而需要在onWindowStageRestore設置
    發(fā)表于 12-26 15:23

    emc數(shù)據(jù)遷移工具的使用指南

    在當今快速發(fā)展的信息技術領域,數(shù)據(jù)遷移成為了企業(yè)IT戰(zhàn)略中不可或缺的一部分。隨著數(shù)據(jù)量的激增和業(yè)務需求的變化,企業(yè)需要將數(shù)據(jù)從一個存儲系統(tǒng)遷移到另一個,以提高效率、降低成本或滿足合規(guī)要求。EMC作為
    的頭像 發(fā)表于 11-01 15:55 ?824次閱讀

    GPU深度學習應用案例

    能力,可以顯著提高圖像識別模型的訓練速度和準確性。例如,在人臉識別、自動駕駛等領域,GPU被廣泛應用于加速深度學習模型的訓練和推理過程。 二、自然語言處理 自然語言處理(NLP)是深度學習的另一個重要應用領域。GPU可以加速
    的頭像 發(fā)表于 10-27 11:13 ?1300次閱讀

    遷移失效現(xiàn)象

    遷移現(xiàn)象及其對電子產(chǎn)品可靠性的影響
    的頭像 發(fā)表于 10-27 10:21 ?1372次閱讀

    云計算遷移的步驟與注意事項

    云計算遷移是一個復雜且關鍵的過程,需要細致的規(guī)劃和執(zhí)行。以下是云計算遷移的一般步驟及注意事項: 一、云計算遷移的步驟 準備階段 評估目標云環(huán)境 :對目標云服務器的性能、存儲容量、網(wǎng)絡帶寬等方面進行
    的頭像 發(fā)表于 10-24 09:20 ?1260次閱讀

    大算力芯片面臨的技術挑戰(zhàn)和解決策略

    在灣芯展SEMiBAY2024《HBM與存儲器技術與應用論壇》上,億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬發(fā)表了題為《超越極限:大算力芯片面臨的技術挑戰(zhàn)和解決策略》的演講。
    的頭像 發(fā)表于 10-23 14:50 ?1055次閱讀

    預訓練和遷移學習的區(qū)別和聯(lián)系

    預訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關鍵作用。本文將從定義、原理、應用、區(qū)別和聯(lián)系等方面詳細探討預訓
    的頭像 發(fā)表于 07-11 10:12 ?2020次閱讀

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次模型特點的分析: 詞匯層次 詞匯
    的頭像 發(fā)表于 07-09 10:39 ?834次閱讀

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    來改變我們的行為和情感。NLP的目標是幫助人們實現(xiàn)自我改進,提高溝通技巧,增強領導力和解決問題的能力。 NLP的主要組成部分包括: 感知:了解我們?nèi)绾谓邮蘸吞幚硇畔ⅰ?語言:研究我們?nèi)绾问褂谜Z言來表達我們的思想和情感。 編程:研
    的頭像 發(fā)表于 07-09 10:35 ?1168次閱讀

    nlp自然語言處理基本概念及關鍵技術

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。NLP技術在機器翻譯、情感分析、語音識別
    的頭像 發(fā)表于 07-09 10:32 ?1322次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學和人工智能領域的一個重要分支,它致力于使計算機能夠理解和處理人類語言。隨著技術的發(fā)展,NLP領域出現(xiàn)了
    的頭像 發(fā)表于 07-09 10:28 ?1024次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類語言。NLP技術在許多領域都有廣泛
    的頭像 發(fā)表于 07-09 10:26 ?2144次閱讀
    主站蜘蛛池模板: 长沙市| 新竹县| 襄城县| 年辖:市辖区| 许昌市| 广德县| 浦东新区| 昂仁县| 即墨市| 齐齐哈尔市| 仪征市| 民勤县| 商河县| 台北县| 邯郸市| 合阳县| 连江县| 塘沽区| 加查县| 葫芦岛市| 巫溪县| 阿尔山市| 阿图什市| 饶河县| 永福县| 喀什市| 安吉县| 大冶市| 会理县| 英超| 日照市| 通许县| 安宁市| 淮北市| 云浮市| 灵丘县| 逊克县| 延边| 玉林市| 富阳市| 全州县|