女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于亂序語(yǔ)言模型的預(yù)訓(xùn)練模型-PERT

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP工作站 ? 作者:劉聰NLP ? 2022-05-10 15:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫(xiě)在前面

今天分享給大家一篇哈工大訊飛聯(lián)合實(shí)驗(yàn)室的論文,一種基于亂序語(yǔ)言模型的預(yù)訓(xùn)練模型-PERT,全名《PERT: PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL》。該篇論文的核心是,將MLM語(yǔ)言模型的掩碼詞預(yù)測(cè)任務(wù),替換成詞序預(yù)測(cè)任務(wù),也就是在不引入掩碼標(biāo)記[MASK]的情況下自監(jiān)督地學(xué)習(xí)文本語(yǔ)義信息,隨機(jī)將一段文本的部分詞序打亂,然后預(yù)測(cè)被打亂詞語(yǔ)的原始位置。

PERT模型的Github以及對(duì)應(yīng)的開(kāi)源模型其實(shí)年前就出來(lái)了,只是論文沒(méi)有放出。今天一瞬間想起來(lái)去看一眼,這不,論文在3月14號(hào)的時(shí)候掛到了axirv上,今天分享給大家。

paper:https://arxiv.org/pdf/2203.06906.pdf
github:https://github.com/ymcui/PERT

介紹

預(yù)訓(xùn)練語(yǔ)言模型(PLMs)目前在各種自然語(yǔ)言處理任務(wù)中均取得了優(yōu)異的效果。預(yù)訓(xùn)練語(yǔ)言模型主要分為自編碼和自回歸兩種。自編碼PLMs的預(yù)訓(xùn)練任務(wù)通常是掩碼語(yǔ)言模型任務(wù),即在預(yù)訓(xùn)練階段,使用[MASK]標(biāo)記替換原始輸入文本中的一些token,并在詞匯表中恢復(fù)這些被[MASK]的token。

常用預(yù)訓(xùn)練語(yǔ)言模型總結(jié):https://zhuanlan.zhihu.com/p/406512290

那么,自編碼PLMs只能使用掩碼語(yǔ)言模型任務(wù)作為預(yù)訓(xùn)練任務(wù)嗎?我們發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象“在一段文本中隨機(jī)打亂幾個(gè)字并不會(huì)影響我們對(duì)這一段文本的理解”,如下圖所示,乍一看,可能沒(méi)有注意到句子中存在一些亂序詞語(yǔ),并且可以抓住句子的中心意思。該論文探究了是否可以通過(guò)打亂句子中的字詞來(lái)學(xué)習(xí)上下文的文本表征,并提出了一個(gè)新的預(yù)訓(xùn)練任務(wù),即亂序語(yǔ)言模型(PerLM)。e8d52ce8-cf96-11ec-bce3-dac502259ad0.png

模型

PERT模型結(jié)構(gòu)如上圖所示。PERT模型結(jié)構(gòu)與BERT模型結(jié)構(gòu)相同,僅在模型輸入以及預(yù)訓(xùn)練目標(biāo)上略有不同。

PERT模型的細(xì)節(jié)如下:

  • 采用亂序語(yǔ)言模型作為預(yù)訓(xùn)練任務(wù),預(yù)測(cè)目標(biāo)為原始字詞的位置;
  • 預(yù)測(cè)空間大小取決于輸入序列長(zhǎng)度,而不是整個(gè)詞表的大小(掩碼語(yǔ)言模型預(yù)測(cè)空間為詞表);
  • 不采用NSP任務(wù);
  • 通過(guò)全詞屏蔽和N-gram屏蔽策略來(lái)選擇亂序的候選標(biāo)記;
  • 亂序的候選標(biāo)記的概率為15%,并且真正打亂順序僅占90%,剩余10%保持不變。

由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記,減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap,并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度,使得計(jì)算效率高于掩碼語(yǔ)言模型。PERT模型結(jié)構(gòu)與BERT模型一致,因此在下游預(yù)訓(xùn)練時(shí),不需要修改原始BERT模型的任何代碼與腳本。注意,與預(yù)訓(xùn)練階段不同,在微調(diào)階段使用正常的輸入序列,而不是打亂順序的序列。

中文實(shí)驗(yàn)結(jié)果與分析

預(yù)訓(xùn)練參數(shù)

  • 數(shù)據(jù):由中文維基百科、百科全書(shū)、社區(qū)問(wèn)答、新聞文章等組成,共5.4B字,大約20G。
  • 訓(xùn)練參數(shù):詞表大小為21128,最大序列長(zhǎng)度為512,batch大小為416(base版模型)和128(large版模型),初始學(xué)習(xí)率為1e-4,使用 warmup動(dòng)態(tài)調(diào)節(jié)學(xué)習(xí)率,總訓(xùn)練步數(shù)為2M,采用ADAM優(yōu)化器。
  • 訓(xùn)練設(shè)備:一臺(tái)TPU,128G。

機(jī)器閱讀理解MRC任務(wù)

在CMRC2018和DRCD兩個(gè)數(shù)據(jù)集上對(duì)機(jī)器閱讀理解任務(wù)進(jìn)行評(píng)測(cè),結(jié)果如下表所示。e8e7ca9c-cf96-11ec-bce3-dac502259ad0.png
PERT模型相比于MacBERT模型有部分的提高,并且始終優(yōu)于其他模型。

文本分類TC任務(wù)

在XNLI、LCQMC、BQ Corpus、ChnSentiCorp、TNEWS和OCNLI 6個(gè)數(shù)據(jù)集上對(duì)文本分類任務(wù)進(jìn)行評(píng)測(cè),結(jié)果如下表所示。e901a50c-cf96-11ec-bce3-dac502259ad0.png

在文本分類任務(wù)上,PERT模型表現(xiàn)不佳。推測(cè)與MRC任務(wù)相比,預(yù)訓(xùn)練中的亂序文本給理解短文本帶來(lái)了困難。

命名實(shí)體識(shí)別NER任務(wù)

在MSRA-NER和People’s Daily兩個(gè)數(shù)據(jù)集上對(duì)命名實(shí)體識(shí)別任務(wù)進(jìn)行評(píng)測(cè),結(jié)果如下表所示。e922c94e-cf96-11ec-bce3-dac502259ad0.png

PERT模型相比于其他模型均取得最優(yōu)的效果,表明預(yù)訓(xùn)練中的亂序文在序列標(biāo)記任務(wù)中的良好能力。

對(duì)比機(jī)器閱讀理解、文本分類和命名實(shí)體識(shí)別三個(gè)任務(wù),可以發(fā)現(xiàn),PERT模型在MRC和NER任務(wù)上表現(xiàn)較好,但在TC任務(wù)上表現(xiàn)不佳,這意味著TC任務(wù)對(duì)詞語(yǔ)順序更加敏感,由于TC任務(wù)的輸入文本相對(duì)較短,有些詞語(yǔ)順序的改變會(huì)給輸入文本帶來(lái)完全的意義變化。然而,MRC任務(wù)的輸入文本通常很長(zhǎng),幾個(gè)單詞的排列可能不會(huì)改變整個(gè)文章的敘述流程;并且對(duì)于NER任務(wù),由于命名實(shí)體在整個(gè)輸入文本中只占很小的比例,因此詞語(yǔ)順序改變可能不會(huì)影響NER進(jìn)程。

語(yǔ)法檢查任務(wù)

在Wikipedia、Formal Doc、Customs和Legal 4個(gè)數(shù)據(jù)集上對(duì)文本分類任務(wù)進(jìn)行評(píng)測(cè)語(yǔ)法檢查任務(wù)進(jìn)行評(píng)測(cè),結(jié)果如下表所示。e938f854-cf96-11ec-bce3-dac502259ad0.png

PERT模型相比于其他模型均取得最優(yōu)的效果,這是由于下游任務(wù)與預(yù)訓(xùn)練任務(wù)非常相似導(dǎo)致的。

預(yù)訓(xùn)練的訓(xùn)練步數(shù)對(duì)PERT模型的影響

不同的下游任務(wù)的最佳效果可能出現(xiàn)在不同的預(yù)訓(xùn)練步驟上,如下圖所示。e98c68c2-cf96-11ec-bce3-dac502259ad0.png

我們發(fā)現(xiàn)對(duì)于MRC和NER任務(wù),隨著預(yù)訓(xùn)練步數(shù)的增加,下游任務(wù)也會(huì)隨之提高。然而,對(duì)于TC任務(wù),不同數(shù)據(jù)的指標(biāo)在不同的步數(shù)上取得最優(yōu)。如果考慮到特定任務(wù)的效果,有必要在早期訓(xùn)練中保存部分模型。

不同的打亂粒度對(duì)PERT模型的影響

不同粒度間的打亂,可以使使輸入文本更具可讀性。通過(guò)在不同粒度內(nèi)亂序輸入文本來(lái)比較性能,如下表所示。e9a25be6-cf96-11ec-bce3-dac502259ad0.png

我們發(fā)現(xiàn),在各種打亂粒度中,無(wú)限制亂序的PERT模型在所有任務(wù)中都取得了最優(yōu)的效果;而選擇最小粒度(詞語(yǔ)之間)的模型,效果最差。可能原因是,雖然使用更小的粒度的亂序可以使輸入文本更具可讀性,但是對(duì)預(yù)訓(xùn)練任務(wù)的挑戰(zhàn)性較小,使模型不能學(xué)習(xí)到更好地語(yǔ)義信息。

不同預(yù)測(cè)空間對(duì)PERT模型的影響

將PERT模型使用詞表空間作為預(yù)測(cè)目標(biāo)是否有效?如下表所示。

e9b7dda4-cf96-11ec-bce3-dac502259ad0.png

實(shí)驗(yàn)結(jié)果表明,PERT模型不需要在詞表空間中進(jìn)行預(yù)測(cè),其表現(xiàn)明顯差于在輸入序列上的預(yù)測(cè);并且將兩者結(jié)合的效果也不盡如人意。

預(yù)測(cè)部分序列和預(yù)測(cè)全部序列對(duì)PERT模型的影響

ELECTRA模型的實(shí)驗(yàn)發(fā)現(xiàn)預(yù)測(cè)完全序列的效果比部分序列的更好,因此ELECTRA模型采用RTD任務(wù)對(duì)判別器采用完全序列預(yù)測(cè)。但通過(guò)本論文實(shí)驗(yàn)發(fā)現(xiàn),預(yù)測(cè)完全序列在PERT模型中并沒(méi)有產(chǎn)生更好的效果。表明在預(yù)訓(xùn)練任務(wù)中使用預(yù)測(cè)全部序列并不總是有效的,需要根據(jù)所設(shè)計(jì)的預(yù)訓(xùn)練任務(wù)進(jìn)行調(diào)整。e9db0a7c-cf96-11ec-bce3-dac502259ad0.png

總結(jié)

PERT模型的預(yù)訓(xùn)練思路還是挺有意思的,并在MRC、NER和WOR任務(wù)上均取得了不錯(cuò)的效果。并且由于結(jié)構(gòu)與BERT模型一致,因此在下游任務(wù)使用時(shí),僅修改預(yù)訓(xùn)練模型加載路徑就實(shí)現(xiàn)了模型替換,也比較方便。當(dāng)打比賽或者做業(yè)務(wù)時(shí)候,可以不妨試一試,說(shuō)不定有奇效。(ps:我在我們自己的MRC數(shù)據(jù)集上做過(guò)實(shí)驗(yàn),效果不錯(cuò)呦!!)


審核編輯 :李倩



聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10771
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    628

    瀏覽量

    14136

原文標(biāo)題:PERT:一種基于亂序語(yǔ)言模型的預(yù)訓(xùn)練模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大
    的頭像 發(fā)表于 03-21 18:24 ?1560次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    小白學(xué)大模型訓(xùn)練語(yǔ)言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語(yǔ)言模型(LLMs)正以其強(qiáng)大的語(yǔ)言理解和生成能力,改變著我們的生活和工作方式。在最近的項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У?/div>
    的頭像 發(fā)表于 03-03 11:51 ?703次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開(kāi)始訓(xùn)練個(gè)大語(yǔ)言模型需要投資多少錢》,其中高昂的預(yù)
    的頭像 發(fā)表于 02-19 16:10 ?976次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1720次閱讀
    <b class='flag-5'>一</b>文詳解視覺(jué)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    騰訊公布大語(yǔ)言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了項(xiàng)名為“大語(yǔ)言模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊在大語(yǔ)言
    的頭像 發(fā)表于 02-10 09:37 ?396次閱讀

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    ,減少了計(jì)算成本。LoRA(Low-Rank Adaptation):一種基于低秩分解的微調(diào)方法,通過(guò)分解模型參數(shù)矩陣為低秩矩陣來(lái)減少參數(shù)更新的數(shù)量,提高訓(xùn)練效率。PET(Prompt-based
    發(fā)表于 01-14 16:51

    KerasHub統(tǒng)、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這動(dòng)向的前沿。Keras 擁有專用的內(nèi)
    的頭像 發(fā)表于 12-20 10:32 ?489次閱讀

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?517次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    寫(xiě)給小白的大模型入門科普

    什么是大模型?大模型,英文名叫LargeModel,大型模型。早期的時(shí)候,也叫FoundationModel,基礎(chǔ)模型。大模型
    的頭像 發(fā)表于 11-23 01:06 ?697次閱讀
    寫(xiě)給小白的大<b class='flag-5'>模型</b>入門科普

    從零開(kāi)始訓(xùn)練個(gè)大語(yǔ)言模型需要投資多少錢?

    ,前言 ? 在AI領(lǐng)域,訓(xùn)練個(gè)大型語(yǔ)言模型(LLM)是個(gè)耗時(shí)且復(fù)雜的過(guò)程。幾乎每個(gè)做大型
    的頭像 發(fā)表于 11-08 14:15 ?767次閱讀
    從零開(kāi)始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b>個(gè)大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>需要投資多少錢?

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開(kāi)播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?576次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本中缺失的部分或下個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語(yǔ)言
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書(shū)

    上周收到《大語(yǔ)言模型應(yīng)用指南》書(shū),非常高興,但工作項(xiàng)目繁忙,今天才品鑒體驗(yàn),感謝作者編寫(xiě)了部?jī)?nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了
    發(fā)表于 07-21 13:35

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行
    的頭像 發(fā)表于 07-11 10:11 ?966次閱讀
    主站蜘蛛池模板: 拜城县| 博乐市| 汶上县| 盐池县| 谷城县| 城市| 崇左市| 布尔津县| 南昌县| 汶川县| 和田县| 永和县| 安陆市| 泗洪县| 蕉岭县| 平乐县| 怀仁县| 新巴尔虎左旗| 郧西县| 南乐县| 长沙市| 昭平县| 南昌市| 侯马市| 沽源县| 海淀区| 高台县| 治多县| 疏附县| 泸水县| 崇州市| 平原县| 逊克县| 津南区| 措勤县| 兴安县| 土默特右旗| 永清县| 泸溪县| 东宁县| 喀什市|