如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer。
盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
在上一篇《什么是 Transformer 模型(一)》中,通過對 Transformer 模型進行的深入剖析,展開了一幅 AI 領域的創新畫卷,本篇文章將聚焦于該模型在現實世界各個領域中的具體應用,以及這些應用如何改變我們的生活和工作方式,展望其在未來人工智能發展中的潛在影響。
讓 Transformer 發揮作用
很快,Transformer 模型就被應用于科學和醫療領域。
倫敦的 DeepMind 使用一種名為 AlphaFold2 的 Transformer 加深了對蛋白質這一生命基礎要素的理解。最近《自然》期刊上的一篇文章對該 Transformer 進行了描述。這種 Transformer 能夠像處理文本字符串一樣處理氨基酸鏈,為描述蛋白質的折疊方式打開了新的思路,這項研究可以加快藥物發現的速度。
阿斯利康和 NVIDIA 共同開發了一個專為藥物發現量身定制的 Transformer MegaMolBART。MegaMolBART 是該制藥公司 MolBART Transformer 的一個版本,使用 NVIDIA Megatron 在一個大型、無標記的化合物數據庫上訓練,以創建大規模 Transformer 模型。
閱讀分子和醫療記錄
阿斯利康分子 AI、發現科學和研發部門負責人 Ola Engkvist 在 2020 年宣布這項工作時表示:“正如 AI 語言模型可以學習句子中單詞之間的關系一樣,我們的目標是使在分子結構數據上訓練而成的神經網絡能夠學習現實世界分子中原子之間的關系。”
為了從大量臨床數據中提煉洞察,加快醫學研究的速度,佛羅里達大學學術健康中心與 NVIDIA 研究人員聯合創建了 GatorTron 這個 Transformer 模型。
Transformer 增長
在研究過程中,研究人員發現大型 Transformer 性能更好。
慕尼黑工業大學 Rostlab 的研究人員推動著 AI 與生物學交叉領域的前沿研究,他們利用自然語言處理技術來了解蛋白質。該團隊在 18 個月的時間里,從使用具有 9000 萬個參數的 RNN 升級到具有 5.67 億個參數的 Transformer 模型。
Rostlab 研究人員展示了在沒有標記樣本的情況下訓練的語言模型所捕捉到的蛋白質序列信號
OpenAI 實驗室的生成式預訓練 Transformer(GPT)證明了模型的規模越大越好。其最新版本 GPT-3 有 1750 億個參數,而 GPT-2 只有 15 億個。
憑借更多的參數,GPT-3 即使在沒有經過專門訓練的情況下,也能回答用戶的問詢。思科、IBM、Salesforce 等公司已經在使用 GPT-3。
巨型 Transformer 的故事
NVIDIA 和微軟在 2022 年 11 月發布了擁有 5300 億個參數的 Megatron-Turing 自然語言生成模型(MT-NLG)。與它一起發布的框架 NVIDIA NeMo Megatron 旨在讓任何企業都能創建自己的十億或萬億參數 Transformer,為自定義聊天機器人、個人助手以及其他能理解語言的 AI 應用提供助力。
MT-NLG 首次公開亮相是作為 Toy Jensen(TJ)虛擬形象的大腦,幫助 TJ 在 NVIDIA 2021 年 11 月的 GTC 上發表了一部分主題演講。
負責 NVIDIA 團隊訓練該模型的 Mostofa Patwary 表示:“當我們看到 TJ 回答問題時,他作為我們的首席執行官展示我們的工作成果,那一刻真是令人振奮。”
創建這樣的模型并非易事。MT-NLG 使用數千億個數據元素訓練而成,整個過程需要數千顆 GPU 運行數周時間。
Patwary 表示:“訓練大型 Transformer 模型既昂貴又耗時,如果前一兩次沒有成功,項目就可能被取消。”
萬億參數 Transformer
如今,許多 AI 工程師正在研究萬億參數 Transformer 及其應用。
Patwary 表示:“我們一直在研究這些大模型如何提供更好的應用。我們還在研究它們會在哪些方面失敗,這樣就能創建出更好、更大的模型。”
為了提供這些模型所需的算力,NVIDIA 的加速器內置了一個 Transformer 引擎并支持新的 FP8 格式,既加快了訓練速度,又保持了準確性。
黃仁勛在 GTC 2022 上表示,通過這些及其他方面的進步,“Transformer 模型的訓練時間可以從數周縮短到數天。”
TJ 在 GTC 2022 上表示:“Megatron 能幫助我回答黃仁勛拋給我的所有難題。”
MoE 對于 Transformer 的意義更大
谷歌研究人員 2021 年介紹的 Switch Transformer 是首批萬億參數模型之一。該模型利用 AI 稀疏性、復雜的混合專家(MoE)架構等先進技術提高了語言處理性能并使預訓練速度加快了最多 7 倍。
首個擁有多達一萬億個參數模型 Switch Transformer 的編碼器
微軟 Azure 則與 NVIDIA 合作,在其翻譯服務中使用了 MoE Transformer。
解決 Transformer 所面臨的挑戰
如今,一些研究人員的目標是開發出性能與那些最大的模型相同、但參數更少并且更簡單的 Transformer。
Cohere 的 Gomez 以 DeepMind 的 Retro 模型為例:“我看到基于檢索的模型將大有可為并實現彎道超車,對此我感到非常興奮。”
基于檢索的模型通過向數據庫提交查詢來進行學習。他表示:“這很酷,因為你可以對放到知識庫中的內容進行選擇。”
在追求更高性能的過程中,Transformer 模型的規模也在不斷擴大
Vaswani 現在是一家隱形 AI 初創公司的聯合創始人,他表示最終目標是“讓這些模型像人類一樣,在現實世界中使用極少的數據就能從上下文中學習。”
他想象未來的模型可以在前期進行更多計算,從而減少對數據的需求,使用戶能夠更好地提供反饋。
“我們的目標是創建能夠在日常生活中幫助人們的模型。”
安全、負責任的模型
其他研究人員正在研究如何在模型放大錯誤或有害語言時消除偏見或有害性,例如斯坦福大學專門創建了基礎模型研究中心探究這些問題。
NVIDIA 研究科學家 Shrimai Prabhumoye 是業內眾多研究這一領域的人士之一。他表示:“這些都是在安全部署模型前需要解決的重要問題。”
“如今,大多數模型需要的是特定的單詞或短語。但在現實生活中,這些內容可能會以十分微妙的方式呈現,因此我們必須考慮整個上下文。”
Gomez 表示:“這也是 Cohere 最關心的問題。如果這些模型會傷害到人,就不會有人使用它們,所以創建最安全、最負責任的模型是最基本的要求。”
展望未來
在 Vaswani 的想象中,未來能夠自我學習、由注意力驅動的 Transformer 最有可能成為 AI 的“殺手锏”。
他表示:“我們現在有機會實現人們在創造‘通用人工智能’一詞時提到的一些目標,我覺得這給我們帶來了巨大的啟發。”
“在當前這個時代,神經網絡等各種簡單的方法正在賦予我們大量新的能力。”
小結
本文通過對 Transformer 模型的應用案例進行了梳理,并對其未來的發展方向進行了預測。從生物醫藥到科學研究,該模型不僅在技術上取得了突破,更在實際應用中展現了其深遠的影響力和廣闊的前景。本文系列內容到此已經對 Transformer 模型如何擴展我們對于機器學習和 AI 的想象進行了深入介紹。隨著技術的不斷進步,Transformer 模型將在 AI 的新時代中扮演著更加關鍵的角色,推動各行各業的創新與變革。
-
NVIDIA
+關注
關注
14文章
5298瀏覽量
106255 -
AI
+關注
關注
88文章
34996瀏覽量
278673 -
模型
+關注
關注
1文章
3516瀏覽量
50343 -
Transformer
+關注
關注
0文章
151瀏覽量
6499
原文標題:什么是 Transformer 模型(二)
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
Transformer架構中編碼器的工作流程

Transformer架構概述

從FA模型切換到Stage模型時:module的切換說明
如何使用MATLAB構建Transformer模型

transformer專用ASIC芯片Sohu說明

知行科技大模型研發體系初見效果

【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型
飛龍入海:ANSYS官方的大模型應用

自動駕駛中一直說的BEV+Transformer到底是個啥?

評論