達特茅斯學院的研究人員為了提高計算機模型對文本風格的轉換能力,竟然將目光投向了《圣經》!研究表明,不同版本的《圣經》行文風格迥異,使用不同版本的《圣經》作為訓練數據集,訓練出的算法可以將書面文本轉換成內容相同,但行文風格迥異的新文本。
為了尋找改進計算機文本翻譯質量的靈感,達特茅斯學院的研究人員向《圣經》尋求幫助和指導。結果發現,使用各種版本的《圣經》訓練的算法可以將書面作品轉換成針對不同受眾的不同風格的譯文。
目前市面上可用的多語種互譯的網絡工具有很多。但行文風格和樣式轉換工具,即文本的語種相同,但轉換行文風格的工具出現的速度則要慢得多。在某種程度上講,由于難以獲得所需的大量訓練數據,開發這類轉換工具的研究遭遇了困難。因此,研究團隊想到在《圣經》中汲取靈感。
來自達特茅斯學院的研究團隊發現,《圣經》除了為遍布全球的許多人提供精神上的指引之外,還能提供一個“大型的、以前尚未開發的對齊平行文本數據集”。《圣經》每個版本都包含超過31000節經文,研究人員用這些經文為機器學習訓練集生成了超過150萬個源經文和目標經文的專門配對。
該研究論文已發表在Royal Society Open Science期刊上。文中表示,這不是首個為文字風格轉換而創建的并行數據集。但卻是第一個使用《圣經》的數據集。過去這類數據集使用的其他文本,比如莎士比亞作品、維基百科條目之類,所能提供的數據集要么比現在小得多,要么不適合學習風格轉換的任務。
“英文版《圣經》有許多不同的行文風格,使其成為風格轉換的完美源文本?!边_特茅斯大學學生、本論文的第一作者Keith Carlson說。
由于《圣經》的文本已經全面索引化,對不同版本的《圣經》文本的組織是可預測的,消除了用自動化方式匹配相同文本可能引起的對齊錯誤的風險。
“圣經是一個'神圣的'數據集,可以用來研究這項任務,”達特茅斯計算機科學教授丹尼爾·洛克莫爾說。 “幾個世紀以來,人類一直在執行組織圣經文本的任務,我們的信仰不可能基于不太可靠的對齊算法?!?/p>
為了定義研究的“風格”,研究人員參考了句子長度、被動或主動語音的使用,以及可能導致文本具有不同程度的簡潔或形式的用詞選擇。
根據這項研究的結果:“不同的措辭可能會傳達不同程度的禮貌度或對讀者的熟悉程度,顯示關于作者的不同文化信息,使文本對某些人群更容易理解?!?/p>
該團隊使用了34種風格獨特的圣經版本,其語言復雜程度從“詹姆斯國王版”到“基礎英語圣經”。研究人員使用這些文本作為兩種算法的輸入,一種是名為“摩西”的統計機器翻譯系統,另一種是常用于機器翻譯的神經網絡框架“Seq2Seq”。
雖然研究團隊使用了不同版本的《圣經》來訓練計算機代碼,但最終可以開發出能夠為不同受眾轉換任何書面文本風格的系統。例如可以從“Moby Dick”中選擇英語,并將其風格轉換成適合年輕讀者、非英語母語人士或其他多種受眾團體中的不同版本。
“文本簡化只是一種特定類型的風格轉換。更廣泛地說,我們開發的系統旨在生成與原文具有相同含義的文本,但會用不同的文字進行表述?!笨柹f。
達特茅斯學院在計算機科學領域有著悠久的創新歷史?!?a target="_blank">人工智能”(AI)一詞最初就是在1956年達特茅斯學院召開AI研究學科的會議期間誕生的。該校其他相關研究還包括BASIC語言的設計,這是第一個通用和可訪問的編程語言,以及為現代操作系統做出貢獻的“達特茅斯時間共享”系統。
-
機器學習
+關注
關注
66文章
8500瀏覽量
134503 -
數據集
+關注
關注
4文章
1223瀏覽量
25405
原文標題:用《圣經》做訓練數據集,達特茅斯學院完美打造語言風格轉換工具
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
harmony-utils之TempUtil,溫度轉換工具類
使用AICube導入數據集點創建后提示數據集不合法怎么處理?
PanDao應用:確定和轉換透鏡公差
請問如何在imx8mplus上部署和運行YOLOv5訓練的模型?
用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集

騰訊公布大語言模型訓練新專利
請問有沒有不在linux上對.pt模型向.kmodel轉換的教程呢?
ODX診斷數據庫轉換工具 - DDC

評論