專用CPU并不是一個(gè)全新的概念。
Amazon Web Services已經(jīng)表明,云計(jì)算的未來(lái)不能僅依靠其新型Graviton3E芯片的通用芯片,AWS將與AMD和英特爾一起推出旨在更快、更高效地執(zhí)行某些應(yīng)用程序的專用中央處理器。
雖然受益于許多并行工作的內(nèi)核,計(jì)算世界越來(lái)越多地開(kāi)始使用GPU來(lái)處理AI訓(xùn)練等工作負(fù)載,但英特爾、AMD和AWS發(fā)現(xiàn)為一些對(duì)企業(yè)、政府、政府和組織都很重要的數(shù)據(jù)密集型應(yīng)用程序定制CPU的好處。
這意味著未來(lái)CPU改進(jìn)的節(jié)奏不會(huì)那么簡(jiǎn)單,因?yàn)檫@三家公司很快都會(huì)有通用和專用的中央處理器可用。對(duì)于具有高性能需求的組織,這將需要對(duì)系統(tǒng)配置進(jìn)行更多審查,因?yàn)樾酒O(shè)計(jì)人員希望以新的方式提高性能和效率。
就Gravtion3E而言,AWS、AMD和英特爾最近和即將推出的CPU有著相同的目標(biāo)——高性能計(jì)算——至少在更廣泛的層面上是這樣。我們談?wù)摰氖强茖W(xué)家、工程師和其他數(shù)據(jù)相關(guān)專業(yè)人士使用的廣泛應(yīng)用,例如計(jì)算流體動(dòng)力學(xué)、天氣建模和分子動(dòng)力學(xué)等。
AWS本周表示,Graviton3E非常適合HPC應(yīng)用程序,因?yàn)樗槍?duì)浮點(diǎn)和矢量數(shù)學(xué)進(jìn)行了優(yōu)化。AWS執(zhí)行官Peter DeSantis聲稱,與今年早些時(shí)候開(kāi)始為實(shí)例提供動(dòng)力的通用Graviton3相比,這種微調(diào)使基于Arm的芯片在生命科學(xué)和金融建模工作負(fù)載的基準(zhǔn)測(cè)試中運(yùn)行得更快。
雖然AWS沒(méi)有透露有關(guān)Graviton3E的許多細(xì)節(jié),但我們可以看看來(lái)自AMD和英特爾的新的HPC調(diào)優(yōu)CPU,以了解如何調(diào)整通用芯片以使一組應(yīng)用程序受益。
AMD提升緩存以服務(wù)于技術(shù)計(jì)算應(yīng)用程序
今年早些時(shí)候,AMD推出了一款全新的Epyc服務(wù)器芯片,代號(hào)為Milan-X,旨在加速HPC中的應(yīng)用程序。目標(biāo)工作包括電子設(shè)計(jì)自動(dòng)化、計(jì)算流體力學(xué)、有限元分析和結(jié)構(gòu)分析模擬,AMD將其置于“技術(shù)計(jì)算”的保護(hù)傘之下。
Milan-X芯片的批量定價(jià)比普通的具有類似特性的第三代Epyc處理器“略有溢價(jià)”,但AMD表示,由于CPU上融合了大量緩存,用戶可以期待目標(biāo)工作負(fù)載的性能大幅提升。額外的性能以768MB的L3高速緩存的形式出現(xiàn),是2021年推出的通用第三代通用Epycs的三倍。這意味著雙插槽服務(wù)器的L3緩存總量可以超過(guò)1.5GB。
擴(kuò)大的L3高速緩存允許CPU在靠近處理器核心的地方存儲(chǔ)更多的數(shù)據(jù),這對(duì)于經(jīng)常移動(dòng)大量數(shù)據(jù)的技術(shù)計(jì)算工作負(fù)載非常重要。AMD聲稱16核Milan-X芯片每小時(shí)可以為Synopsys用于芯片設(shè)計(jì)的VCS軟件執(zhí)行40.6個(gè)任務(wù)。相比之下,AMD的同一代16核Epyc每小時(shí)只能完成24.4個(gè)任務(wù),使得Milan-X芯片的速度提高了66%。
該公司還聲稱,Milan-X的運(yùn)行速度比英特爾去年推出的第三代至強(qiáng)可擴(kuò)展芯片快23-88%,適用于各種技術(shù)計(jì)算應(yīng)用。
英特爾通過(guò)高帶寬內(nèi)存應(yīng)對(duì)HPC
英特爾還在解決讓更多數(shù)據(jù)更靠近HPC應(yīng)用程序內(nèi)核的問(wèn)題,除了沒(méi)有創(chuàng)建更大的緩存,該公司還設(shè)計(jì)了一款具有64GB高帶寬內(nèi)存的CPU。這是指英特爾即將推出的XeonMax系列處理器,它們是明年初推出的SapphireRapids服務(wù)器芯片的HPC變體。
英特爾表示,至強(qiáng)Max芯片的性能將優(yōu)于其第三代至強(qiáng)可擴(kuò)展處理器和AMD的Milan-X芯片,適用于廣泛的HPC應(yīng)用程序。它通過(guò)展示近20個(gè)HPC基準(zhǔn)來(lái)做出這一聲明,最高的XeonMax芯片的性能比上一代處理器高出20%至近5倍。
通過(guò)將64 GB的高帶寬內(nèi)存直接放入芯片中,英特爾在服務(wù)器配置方式上也提供了更大的靈活性。例如,數(shù)據(jù)中心操作員只需依賴XeonMax的高帶寬內(nèi)存,就可以完全放棄服務(wù)器中的DRAM,而無(wú)需進(jìn)行代碼更改。這反過(guò)來(lái)又有望降低購(gòu)買內(nèi)存DIMM及其能源成本的相關(guān)成本。
XeonMax還可以與高帶寬內(nèi)存一起使用DRAM來(lái)擴(kuò)展整個(gè)系統(tǒng)的內(nèi)存,盡管這需要在軟件中進(jìn)行代碼更改。或者,用戶可以配置XeonMax的高帶寬作為DDR的緩存,而DDR不需要任何代碼更改。
雖然增加的高帶寬內(nèi)存是XeonMax的決定性特性,但處理器還有其他的功能來(lái)增強(qiáng)某些HPC和AI應(yīng)用,如英特爾深度學(xué)習(xí)助推器、英特爾數(shù)據(jù)流加速器和英特爾高級(jí)矩陣擴(kuò)展。
碎片化處理的未來(lái)
專用CPU并不是全新的概念。英特爾一直在大量生產(chǎn)針對(duì)電信工作負(fù)載進(jìn)行優(yōu)化的至強(qiáng)處理器。但這批新產(chǎn)品代表了一個(gè)更大的浪潮,即將到來(lái)的中央處理器將不會(huì)被設(shè)計(jì)為服務(wù)于盡可能廣泛的應(yīng)用程序。
英偉達(dá)(Nvidia)計(jì)劃在明年年初發(fā)布基于ARM的Grace CPU,用于HPC和人工智能。另一方面,AMD正在開(kāi)發(fā)未來(lái)幾代Epyc芯片,這些芯片不僅針對(duì)HPC進(jìn)行了優(yōu)化,還針對(duì)邊緣和電信工作負(fù)載進(jìn)行了優(yōu)化。英特爾和AMD都在開(kāi)發(fā)為云計(jì)算優(yōu)化的CPU。
我們需要考慮英特爾、Nvidia和AMD正在研究如何讓CPU和GPU之間的距離更近一些,用于需要大量馬力的應(yīng)用程序。對(duì)于英偉達(dá)來(lái)說(shuō),這將在明年以Grace Hopper Superchip的形式出現(xiàn)。英特爾計(jì)劃在2024年通過(guò)其Falcon Shores"XPU"實(shí)現(xiàn)這一目標(biāo)。與此同時(shí),AMD打算在明年推出的Instinct MI300芯片上實(shí)現(xiàn)這一點(diǎn)。
編輯:黃飛
?
評(píng)論