電子發燒友網報道(文/周凱揚)從最近英偉達公布的財報中就可以看出,AI應用的火熱使其賺得盆滿缽滿,原本就在AI軟硬件生態稱王的英偉達,現今更是如日中天。而這樣的處境也讓不少AI芯片初創公司不好過,他們的產品有的還沒落地,有的則難以與A100、H100這樣的產品匹敵。這幾年沉寂下去的AI芯片初創公司著實不少,但還是有的廠商敢于繼續往這個市場里鉆。
水平擴展性的限制
隨著AI/ML的模型越來越大,甚至是以5年內翻4萬倍的速度提升,要想在硬件上跟上軟件進度已經越來越難了??杉幢闳绱?,從16nm到4nm,從低精度到脈動陣列,都給了我們巨大的優勢去追隨這些大模型。
但運行這些大模型終究不是靠單個芯片的力量,而是整個規模集群需要面臨的問題,所以這就牽扯到了水平擴展性。工藝制程的提高帶來了5倍的性能提升,芯片架構帶來了14倍的性能提升,而水平擴展則要實現600倍的性能提升,才能滿足未來的AI/ML計算要求。這也就是目前AI計算存在的問題,大模型往往需要更大的內存、更高的算力和更大的帶寬,隨著設備數量越多,這三大硬件要求的分配復雜程度就變得越來越高。
比如在GPU上就已經嘗試了不少并行擴展方案,比如數據并行、流水線模型并行或張量模型并行等,但以上方案往往都會受到內存、帶寬和參數量的限制,并沒有單一通用的解決方案,大模型往往需要同時結合這三種方案,所以擴展效率不高。AI芯片公司Cerebras則想出了一個在大規模集群下提高水平擴展性的解決方案。
Cerebras的WSE
要說在AI芯片的初創公司里,走著獨立無二路線的公司,Cerebras絕對能排得上名號。2019年,他們推出了WSE,一個晶圓大小的AI處理器,到了2021年,他們又推出了第二代的WSE-2,采用更先進的工藝將單個處理器的核心數推進至85萬核。而這次Hot Chips上,他們則展示了用于對抗英偉達的解決方案。

WSE-2與GPU大小對比 / Cerebras
Cerebras選擇了將內存和計算解耦的方案,利用內存擴展技術MemoryX,將模型權重存儲在外部,然后將權重傳輸給WSE-2組成的CS-2系統,CS-2再將梯度傳給外部存儲。Cerebras還打造了一個互聯方案SwarmX,用于連接多個CS-2系統,從而提高擴展性。
以Cerebras搭建的Andromeda超算為例,該超算由16個CS-2系統組成,擁有1350萬個AI優化核心,稀疏算力高達1ExaFLOPs,稠密算力高達120PetaFLOPs。在這樣強大的算力下,訓練大模型只要幾周的時間。而且在Cerebras不同規模的集群上,不同參數的大模型可以共享同樣的代碼,以同樣的方式訓練,省去了不少開發時間。
除了Andromeda以外,Cerebras也已經開始了下一個AI超算的部署,由64個CS-2系統組成的Condor Galaxy 1,該超算的算力將擴展至4ExaFLOPs的稀疏算力。而Condor Galaxy 1名字后的1,也意味著這僅僅是單個超算中心所用的系統而已,未來他們計劃在2024年底之前擴展為9個超算中心,分布在美國各地,構建最大的分布式超算網絡,總算力高達36ExaFLOPs,是英偉達Israel-1超算的9倍,是谷歌最大TPUv4集群的4倍。
寫在最后
單從擴展性和性能的角度來看,Cerebras確實已經做到了一個新的高度。但對于購置這些GPU或AI芯片的云服務或互聯網公司來說,GPU或許是一個更加通用的資源,在AI技術日新月異的當下,GPU總能憑借自己的軟硬件生態快速找到自己的一席之地,并在高性能的王座上穩坐一段時間。這也就是AI爆款應用的市場導向決定的了,性能固然重要,但搶占先機才是最關鍵的一環。
水平擴展性的限制
隨著AI/ML的模型越來越大,甚至是以5年內翻4萬倍的速度提升,要想在硬件上跟上軟件進度已經越來越難了??杉幢闳绱?,從16nm到4nm,從低精度到脈動陣列,都給了我們巨大的優勢去追隨這些大模型。
但運行這些大模型終究不是靠單個芯片的力量,而是整個規模集群需要面臨的問題,所以這就牽扯到了水平擴展性。工藝制程的提高帶來了5倍的性能提升,芯片架構帶來了14倍的性能提升,而水平擴展則要實現600倍的性能提升,才能滿足未來的AI/ML計算要求。這也就是目前AI計算存在的問題,大模型往往需要更大的內存、更高的算力和更大的帶寬,隨著設備數量越多,這三大硬件要求的分配復雜程度就變得越來越高。
比如在GPU上就已經嘗試了不少并行擴展方案,比如數據并行、流水線模型并行或張量模型并行等,但以上方案往往都會受到內存、帶寬和參數量的限制,并沒有單一通用的解決方案,大模型往往需要同時結合這三種方案,所以擴展效率不高。AI芯片公司Cerebras則想出了一個在大規模集群下提高水平擴展性的解決方案。
Cerebras的WSE
要說在AI芯片的初創公司里,走著獨立無二路線的公司,Cerebras絕對能排得上名號。2019年,他們推出了WSE,一個晶圓大小的AI處理器,到了2021年,他們又推出了第二代的WSE-2,采用更先進的工藝將單個處理器的核心數推進至85萬核。而這次Hot Chips上,他們則展示了用于對抗英偉達的解決方案。

WSE-2與GPU大小對比 / Cerebras
Cerebras選擇了將內存和計算解耦的方案,利用內存擴展技術MemoryX,將模型權重存儲在外部,然后將權重傳輸給WSE-2組成的CS-2系統,CS-2再將梯度傳給外部存儲。Cerebras還打造了一個互聯方案SwarmX,用于連接多個CS-2系統,從而提高擴展性。
以Cerebras搭建的Andromeda超算為例,該超算由16個CS-2系統組成,擁有1350萬個AI優化核心,稀疏算力高達1ExaFLOPs,稠密算力高達120PetaFLOPs。在這樣強大的算力下,訓練大模型只要幾周的時間。而且在Cerebras不同規模的集群上,不同參數的大模型可以共享同樣的代碼,以同樣的方式訓練,省去了不少開發時間。
除了Andromeda以外,Cerebras也已經開始了下一個AI超算的部署,由64個CS-2系統組成的Condor Galaxy 1,該超算的算力將擴展至4ExaFLOPs的稀疏算力。而Condor Galaxy 1名字后的1,也意味著這僅僅是單個超算中心所用的系統而已,未來他們計劃在2024年底之前擴展為9個超算中心,分布在美國各地,構建最大的分布式超算網絡,總算力高達36ExaFLOPs,是英偉達Israel-1超算的9倍,是谷歌最大TPUv4集群的4倍。
寫在最后
單從擴展性和性能的角度來看,Cerebras確實已經做到了一個新的高度。但對于購置這些GPU或AI芯片的云服務或互聯網公司來說,GPU或許是一個更加通用的資源,在AI技術日新月異的當下,GPU總能憑借自己的軟硬件生態快速找到自己的一席之地,并在高性能的王座上穩坐一段時間。這也就是AI爆款應用的市場導向決定的了,性能固然重要,但搶占先機才是最關鍵的一環。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
88文章
34936瀏覽量
278249 -
英偉達
+關注
關注
22文章
3937瀏覽量
93499
發布評論請先 登錄
相關推薦
熱點推薦
英偉達、高通布局AI投資版圖,這些明星企業被收入囊中!
的模型并不會減少芯片的需求,相反,未來的計算需求只會增加,尤其是對計算基礎設施的需求。 英偉達也在利用其雄厚的資金大幅增加了對各種初創公司的
微軟大手筆采購英偉達AI芯片
據全球知名市場調研機構Omdia的最新估計,微軟在2024年的英偉達Hopper架構芯片采購計劃上展現出了驚人的手筆。這一舉動旨在幫助微軟在構建下一代人工智能(AI)系統的激烈競爭中搶

OpenAI領投Rain AI,挑戰英偉達AI芯片市場地位
巨頭英偉達展開有力競爭。 為了加強其領導團隊,Rain AI于2024年6月成功聘請前蘋果公司芯片執行官Jean-Didier Allegr
英偉達超越蘋果成為市值最高 英偉達取代英特爾加入道指
蘋果公司的市值,重新成為全球市值最高的公司。 在AI領域,英偉達正瘋狂奔跑,我們看到有外媒報道英偉
英偉達加速Rubin平臺AI芯片推出,SK海力士提前交付HBM4存儲器
日,英偉達(NVIDIA)的主要高帶寬存儲器(HBM)供應商南韓SK集團會長崔泰源透露,英偉達執行長黃仁勛已要求SK海力士提前六個月交付用于英偉
英偉達投資日本AI研發初創公司
Ventures及Lux Capital等業界巨頭,而英偉達亦作為重要參與者加入這一行列。此番攜手不僅彰顯了Sakana AI在AI研發領域的深厚潛力,也預示著雙方將開啟一段嶄新的合
韓國AI芯片巨頭合并,劍指英偉達龍頭地位
的合資公司創造超過1萬億韓元的業務價值,標志著韓國在AI芯片領域的雄心壯志,旨在挑戰全球領導者英偉達(NVIDIA)的霸主地位。
AI芯片巨頭英偉達漲超4% 英偉達市值暴增7500億
誰是美股最靚的仔?在人工智能浪潮之下AI芯片巨頭英偉達肯定有一席之地,特別是現在全球資本市場動蕩之際,業界分析師多認為英偉

歐盟警告英偉達AI芯片供應壟斷趨勢
歐盟競爭事務專員瑪格麗特·維斯塔格近日在新加坡之行中發出警告,指出英偉達公司在人工智能(AI)芯片供應方面存在壟斷趨勢,這一表態立即引起了業
評論