電子發(fā)燒友網(wǎng)報(bào)道(文/梁浩斌)近日有消息稱,英偉達(dá)正在與三星、SK海力士等存儲(chǔ)巨頭合作,推動(dòng)自家SOCAMM內(nèi)存標(biāo)準(zhǔn)的商業(yè)化落地。SOCAMM即Space-Optimized CAMM空間優(yōu)化內(nèi)存模組技術(shù),是由英偉達(dá)主導(dǎo)研發(fā)的面向AI計(jì)算、HPC、數(shù)據(jù)中心等領(lǐng)域的高密度內(nèi)存解決方案,旨在通過緊湊的設(shè)計(jì)實(shí)現(xiàn)最大化存儲(chǔ)容量,保持極佳的性能,并使用可拆卸的設(shè)計(jì),便于用戶可以對(duì)內(nèi)存模塊靈活進(jìn)行升級(jí)和更換。
在CES2025上,英偉達(dá)推出的緊湊型超算Project DIGITS,就有望將使用SOCAMM內(nèi)存實(shí)現(xiàn)小體積。
高密度內(nèi)存是AI算力的關(guān)鍵
在AI大模型的訓(xùn)練和推理中,內(nèi)存都起到十分關(guān)鍵的作用,在訓(xùn)練過程中,輸入的數(shù)據(jù)需要在計(jì)算芯片與內(nèi)存之間頻繁傳輸;同時(shí)今天的AI大模型參數(shù)規(guī)模已經(jīng)達(dá)到數(shù)百億甚至萬億級(jí)別,大量的參數(shù)帶來的是巨大的內(nèi)存需求,比如DeepSeek R1(671B版本)的全量模型文件大小達(dá)到720GB,需要512GB以上的DDR4內(nèi)存。
而在內(nèi)存需求不斷增加的當(dāng)下,在設(shè)備有限的體積以及有限的成本內(nèi),如何容納更高容量的內(nèi)存也成為一個(gè)難題。
另外根據(jù)一些測試,影響大模型本地部署處理速度的主要是內(nèi)存總帶寬,高帶寬內(nèi)存可以減少數(shù)據(jù)搬運(yùn)時(shí)間,加快處理速度。帶寬決定了單位時(shí)間內(nèi)內(nèi)存與處理器之間的最大數(shù)據(jù)交換量。例如,訓(xùn)練千億參數(shù)模型時(shí),帶寬不足會(huì)導(dǎo)致GPU利用率低于50%。
在AI場景中,通常需要 >1 TB/s的帶寬,所以近幾年HBM內(nèi)存隨著AI計(jì)算的需求而得到業(yè)界廣泛關(guān)注,但HBM高昂的價(jià)格,也讓其只應(yīng)用在一些價(jià)格昂貴的高端算力卡上。
內(nèi)存延遲過高也會(huì)導(dǎo)致處理器閑置,降低計(jì)算效率。例如,10ns的延遲差異可使推理吞吐量下降15%。一般來說,AI內(nèi)存的隨機(jī)訪問延遲需控制在 50ns以內(nèi),而性能較強(qiáng)的HBM3可以實(shí)現(xiàn)30ns的延遲。
在能效方面,AI服務(wù)器系統(tǒng)中,內(nèi)存的功耗往往占到整個(gè)系統(tǒng)總功耗的20%-40%,尤其是在GPU服務(wù)器中HBM的功耗可以高達(dá)300W。
前面也提到內(nèi)存的需求不斷增加,所以對(duì)于AI數(shù)據(jù)中心等應(yīng)用來說,能夠支持靈活的內(nèi)存擴(kuò)展也是一個(gè)重要的考量。于是面向未來的AI應(yīng)用,新的內(nèi)存需要支持可拆卸的設(shè)計(jì),方便用戶更換。英偉達(dá)在SOCAMM上自然也采用了可拆卸的設(shè)計(jì)。
SOCAMM:更低成本實(shí)現(xiàn)HBM性能
具體來說,SOCAMM首先是利用高I/O密度和先進(jìn)封裝來實(shí)現(xiàn)極高的帶寬。根據(jù)現(xiàn)有信息,SOCAMM的 694個(gè)I/O端口,遠(yuǎn)超傳統(tǒng)內(nèi)存模塊(如DDR5的64-128個(gè)),同時(shí)采用了3D封裝技術(shù)實(shí)現(xiàn)高密度互連,提供接近于HBM3的帶寬。SOCAMM顯著緩解處理器與內(nèi)存間的數(shù)據(jù)瓶頸問題,尤其適用于需要高吞吐量的AI計(jì)算場景。
SOCAMM接口目前基于LPDDR5X,理論帶寬可以達(dá)到6TB/s,已經(jīng)接近于HBM3的水平,但成本上要大大低于HBM3。同時(shí)基于LPDDR5本身具備的低功耗特性,集成高效的電壓調(diào)節(jié)單元,可以根據(jù)工作負(fù)載實(shí)時(shí)調(diào)整供電策略,盡可能降低能耗,因此SOCAMM的能效水平相比HBM3甚至是GDDR6X更高。
高速信號(hào)傳輸方面,SOCAMM據(jù)稱采用了高速差分對(duì)和優(yōu)化的布線布局,能夠在高密度環(huán)境下保持穩(wěn)定的信號(hào)。
在英偉達(dá)的設(shè)計(jì)中,SOCAMM的重要特性就是緊湊體積,模塊體積接近成人中指大小,可以推測其采用了chiplet設(shè)計(jì)和混合鍵合技術(shù),將DRAM裸片與邏輯控制器集成在單一封裝內(nèi)。
如果能夠?qū)OCAMM成功推廣,那么除了AI服務(wù)器等應(yīng)用外,SOCAMM小體積的特性,還將使其適用于AI PC、自動(dòng)駕駛等場景上,未來應(yīng)用的前景將非常廣泛。
寫在最后
AI計(jì)算對(duì)內(nèi)存的要求可歸納為:高帶寬、大容量、低延遲、高能效。傳統(tǒng)DRAM技術(shù)已接近物理極限,而HBM、SOCAMM等新型內(nèi)存通過3D集成和接口優(yōu)化逐步成為AI硬件的核心。英偉達(dá)主導(dǎo)的SOCAMM脫離了當(dāng)前內(nèi)存接口主流的JEDEC規(guī)范,并希望借助AI的趨勢以及英偉達(dá)GPU的強(qiáng)勢地位,來推動(dòng)自有內(nèi)存接口協(xié)議的應(yīng)用,打造獨(dú)立的接口生態(tài),未來SOCAMM的發(fā)展值得持續(xù)關(guān)注。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3937瀏覽量
93468
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論