記得多年前,電腦內(nèi)存的主流配置容量還在1GB左右,而現(xiàn)在有這樣一款處理器,其內(nèi)部三級緩存的容量就超過了1GB,達(dá)到了1.1GB,如果再加上L1、L2級緩存,其容量絕對超過當(dāng)年的主流電腦內(nèi)存容量,它就是AMD最新發(fā)布的EPYC 9684X服務(wù)器處理器。而現(xiàn)在主流消費(fèi)級處理器的三級緩存容量也不會超過100MB,即便是很多頂級服務(wù)器處理器,它們的三級緩存容量也不會超過400MB。那么AMD為什么要推出三級緩存容量如此大的處理器,三級緩存容量這樣大的處理器有什么作用呢?
引入3D緩存,三級緩存容量達(dá)1152MB!
EPYC 9084X系列處理器解析
我們知道,緩存的存在是為了解決計算和存儲之間的鴻溝,利用昂貴、高速但是小尺寸的SRAM來填補(bǔ)CPU和內(nèi)存之間的速度鴻溝,同時提高數(shù)據(jù)命中率,一直以來都是CPU提高性能的不二法門。不過,緩存在超過一定容量之后,后續(xù)就很難再對所有應(yīng)用都帶來顯著的性能提升了,更明顯的性能提升來自緩存敏感型應(yīng)用,在桌面應(yīng)用中主要是游戲,在企業(yè)級應(yīng)用中主要是數(shù)值計算類應(yīng)用,比如流體分析、流體模擬、有限元、計算流體力學(xué)等應(yīng)用,這些應(yīng)用的場景主要是實(shí)驗室、設(shè)計單位、大型企業(yè)等,是HPC也就是超級計算機(jī)的主要客戶群體。
因此針對這些應(yīng)用的需求,AMD此次特別推出了代號“Genoa-X”的EPYC 9084X系列處理器。與代號“Genoa”的EPYC 9654、EPYC 9554等處理器相比,該產(chǎn)品最大的不同就是增加了3D緩存,即3D V-Cache。從技術(shù)本質(zhì)上來說,Genoa-X的3D V-Cache和之前的產(chǎn)品沒有任何不同,都是通過TSV硅穿孔技術(shù),將額外的SRAM緩存芯片直接倒裝連接到CPU核心晶圓上預(yù)留的緩存連接位置。從AMD給出的圖片來看,Genoa-X的采用的是混合鍵合的方式實(shí)現(xiàn)了CPU核心和SRAM核心的連接。AMD可以為每個CCD增加64MB SRAM L3緩存,是原生CCD中包含的32MB的2倍。由于額外增加的緩存是直接連接到整個CCD的緩存總線上的,因此完全可以視作相同的、一致的、均一的本地L3緩存,不存在任何速度、級別方面的差異。
擁有3D緩存的EPYC 9684X處理器也采用SP5 LGA6096封裝,不論是在處理器大小面積,還是處理器厚度上,它都與EPYC 9654完全相同。
AMD處理器的3D緩存技術(shù)主要由混合鍵合、硅通孔、CCD、結(jié)構(gòu)硅片、64MB 3D三級緩存芯片組成。
之前的EPYC 9004系列處理器最多擁有12個CCD,因此AMD要打造EPYC 9084X系列處理器的話,只需在每個CCD上堆疊64MB 3D緩存,相當(dāng)于總共外置12×64MB=768MB L3緩存,再加上CCD內(nèi)部原有的12×32MB=384MB L3緩存,總計最多可以實(shí)現(xiàn)768MB+384MB=1152MB緩存。這也是EPYC 9084X系列處理器能實(shí)現(xiàn)大容量三級緩存的關(guān)鍵原因。
AMD為每個CCD堆疊了64MB的3D V-Cache
AMD的混合鍵合技術(shù)可以有效提高芯片的互聯(lián)密度與能效比,其連接密度相對2D工藝高了200倍,互聯(lián)密度相對單純使用微凸點(diǎn)工藝高了15倍,芯片互聯(lián)的能效也比微凸點(diǎn)工藝提高了3倍。
目前,EPYC 9084X系列處理器總共包括EPYC 9684X、EPYC 9384X和EPYC 9184X三款產(chǎn)品,其型號后綴都帶一個“X”,這也是所有3D V-Cache產(chǎn)品獨(dú)有的標(biāo)識。這三款產(chǎn)品的核心數(shù)量從高到低分別是96、32和16。相比沒有帶3D V-Cache的普通EPYC 9004系列產(chǎn)品而言,比如對比EPYC 9654,EPYC 9684X的基準(zhǔn)頻率高了一些,兩款處理器的最大Boost頻率則都維持3.7GHz不變,但EPYC 9684X的全核心頻率為3.42GHz,比EPYC 9654的3.55GHz全核心頻率要略低一些。同時基準(zhǔn)頻率的提升、緩存容量的大幅增加也讓EPYC 9684X的Default TDP熱設(shè)計功耗達(dá)到了400W,而EPYC 9654的Default TDP為360W。三級緩存方面,由于EPYC 9684X使用了全部12個CCD,所以它的3D V-Cache容量達(dá)到了768MB,三級緩存總?cè)萘繛?68MB+384MB=1152MB緩存。
EPYC 9084X系列處理器主要擁有三款型號,它們在核心、線程數(shù),緩存容量上各不相同。
剩下兩款定位稍低的3D V-Cache EPYC處理器設(shè)置則更為保守,與同為32核心、64線程的EPYC 9354對比,EPYC 9384X的基準(zhǔn)頻率、最高加速頻率都要略低一些,功耗為320W。盡管工作頻率稍低,但三級緩存的大幅增加還是讓EPYC 9384X處理器的Default TDP比EPYC 9354的280W略高一些。EPYC 9184X也是類似情況,其最高加速頻率比同為16核心、32線程的EPYC 9174F的最高加速頻率低了200MHz,額外的L3緩存還是在頻率上帶來了些許影響,Default TDP仍為320W。
此外,EPYC 9084X系列處理器的這三款產(chǎn)品也可以根據(jù)用戶需求、散熱條件等進(jìn)行靈活配置,其處理器功耗可以配置到320W~400W。三級緩存容量方面,由于EPYC 9384X和EPYC 9184X只使用了8個CCD,所以它們的3D V-Cache容量為64MB×8=512MB,三級緩存總?cè)萘繛?12MB+32MB×8=768MB。雖然EPYC 9084X的SKU只有三款,但實(shí)際上對HPC用戶來說,這樣的產(chǎn)品設(shè)計已經(jīng)基本上可以滿足用戶需求了。AMD給出的應(yīng)用范圍顯示,16核心的EPYC 9184X適合電路自動化設(shè)計的客戶,32核心的EPYC 9384X則適合電路自動化設(shè)計、流體計算、有限元分析和結(jié)構(gòu)分析場合,96核心的EPYC 9684X則除了不適合需要高頻率的電路自動化設(shè)計外,其余的場景都是其應(yīng)用范圍。
根據(jù)AMD的官方數(shù)據(jù),在CFX、流體、LS-DYNA、OpenFOAM等實(shí)際測試中,96核心的EPYC 9684X對比60核心的至強(qiáng)鉑金8490H擁有很大的領(lǐng)先幅度,最大可以達(dá)到2.2~2.9倍性能優(yōu)勢,平均也有2.2~2.4倍性能優(yōu)勢。借助于生產(chǎn)工藝與架構(gòu)的優(yōu)勢,目前AMD服務(wù)器處理器在技術(shù)規(guī)格上已經(jīng)遠(yuǎn)勝于對手,能有這樣的成績完全在我們意料之中,畢竟競爭對手的產(chǎn)品在處理器核心數(shù)量、計算線程數(shù)量上也大幅落后。那么面對沒有3D V-Cache的EPYC 9004處理器,特別是在核心、線程數(shù)量上完全相同的產(chǎn)品,EPYC 9084X系列處理器在那些緩存敏感型計算中是否有明顯優(yōu)勢呢?
在專業(yè)應(yīng)用上,96核心的EPYC 9684X對比英特爾60核心的至強(qiáng)鉑金8490H擁有壓倒性的性能優(yōu)勢。
為此我們特別采用同為96核心、192線程設(shè)計的EPYC 9654處理器與EPYC 9684X處理器進(jìn)行了對比測試,讓我們看看在核心、線程數(shù)相同,緩存容量有明顯差異的場景下,緩存容量更多的EPYC 9684X處理器表現(xiàn)如何。
我們?nèi)绾螠y試
本次測試統(tǒng)一考察的是雙路系統(tǒng)的性能,因此EPYC 9684X、EPYC 9654處理器都統(tǒng)一使用了AMD Titanite SP5 2P2U雙路主板。內(nèi)存方面,兩款處理器單路支持12條內(nèi)存通道,雙路系統(tǒng)支持24條內(nèi)存通道,因此我們也為它們采用了24通道內(nèi)存配置。本次測試所使用的內(nèi)存為三星DDR5 4800 64GB,內(nèi)存總數(shù)量為24根,內(nèi)存總?cè)萘繛?.5TB,搭配美光9300系列企業(yè)級NVMe SSD。?
本次測試統(tǒng)一考察的是雙路系統(tǒng)的性能,EPYC 9684X、EPYC 9654處理器都統(tǒng)一采用了AMD Titanite SP5 2P2U雙路主板,12通道、24條內(nèi)存配置。
接下來我們在Ubuntu 22.04操作系統(tǒng)下對兩款處理器的性能進(jìn)行了全面測試。為了讓讀者更好地了解這兩款處理器在眾多企業(yè)級產(chǎn)品中的性能水準(zhǔn),我們還在部分測試中引入了其他處理器已經(jīng)測試過的成績。它們是128核心、256線程配置的雙路EPYC 9554系統(tǒng),64核心、128線程配置的雙路EPYC 9374F系統(tǒng),以及128核心、256線程配置,使用DDR4 3200內(nèi)存的雙路EPYC 7763系統(tǒng)。后者隸屬第三代EPYC霄龍?zhí)幚砥?,采用Zen3處理器架構(gòu)、TSMC 7nm生產(chǎn)工藝。
第四代AMD EPYC處理器雙路系統(tǒng)測試平臺一覽
處理器:EPYC 9684X×2
EPYC 9654×2
內(nèi)存:? ?三星DDR5 4800 64GB×24
主板:? ?AMD Titanite
硬盤:? 美光9300系列企業(yè)級NVMe SSD
系統(tǒng):? Ubuntu 22.04
基準(zhǔn)性能測試
接下來我們首先采用SPECrate 2017、UnixBench Dhrystone 2和Whetstone、Sysbench CPU、HPL與DGEMM測試了處理器的基準(zhǔn)性能。
結(jié)果令人滿意。借助大得多的三級緩存容量與更高的基準(zhǔn)頻率,EPYC 9684X在所有基準(zhǔn)測試中都獲得了領(lǐng)先。其中在SPECrate 2017測試中,EPYC 9684X的整數(shù)性能、浮點(diǎn)性能分別領(lǐng)先EPYC 9654 8.5%、14.1%;在體現(xiàn)處理器雙精度浮點(diǎn)性能與整數(shù)性能的Whetstone和Dhrystone 2中,EPYC 9684X也擁有一定優(yōu)勢,分別領(lǐng)先EPYC 9654為4.58%、0.54%;在Sysbench CPU測試中,EPYC 9684X則獲得了相對EPYC 9654多達(dá)6.93%的領(lǐng)先優(yōu)勢。在HPL與DGEMM測試中,EPYC 9684X的優(yōu)勢收窄,分別為0.45%、1.34%。從測試中來看,SPECrate 2017、Sysbench CPU比較受緩存容量的影響,因此EPYC 9684X會有較大的優(yōu)勢,而HPL、DGEMM、UnixBench的影響較小。
內(nèi)存性能測試
內(nèi)存性能測試中,我們?nèi)圆捎肧tream測試兩款處理器的內(nèi)存性能,由于EPYC 9684X支持12通道DDR5 4800內(nèi)存系統(tǒng),所以從測試成績來看,它的內(nèi)存性能表現(xiàn)也非常優(yōu)秀。其雙路內(nèi)存帶寬達(dá)到747955MB/s,比雙路EPYC 9654系統(tǒng)的內(nèi)存帶寬還要略高一些,相對雙路DDR4 3200 8通道內(nèi)存系統(tǒng)優(yōu)勢巨大。
應(yīng)用性能測試
接下來我們測試了兩款處理器在C-ray光線追蹤、FFmpeg x264視頻編碼等專業(yè)應(yīng)用中的性能表現(xiàn)。在這些常見應(yīng)用中,擁有3D V-Cache的EPYC 9684X也擁有很明顯的優(yōu)勢。如在C-ray 1.1 4K光線追蹤測試中,EPYC 9684X的耗時只有EPYC 9654的一半,在C-ray 1.1 8K光線追蹤測試中,EPYC 9684X的耗時也比EPYC 9654少了14.3%。
我們還使用FFmpeg中的編碼工具測試了兩個雙路系統(tǒng)的視頻編碼性能,編碼器為x264,測試處理器在live場景中的編碼速度即幀率。同樣EPYC 9684X也有小幅領(lǐng)先,其編碼速度比EPYC 9654雙路系統(tǒng)快了2.8%。我們認(rèn)為出現(xiàn)這個結(jié)果的主要原因還是在于視頻編碼過程中,數(shù)據(jù)的存取操作頻繁,且數(shù)據(jù)量大,是制約編碼器性能的主要因素之一,所以擁有更大緩存容量的EPYC 9684X雙路系統(tǒng)具備一定優(yōu)勢也在情理之中。
新增應(yīng)用性能測試:libxsmm
除了以上測試,我們還專門增加了部分對緩存敏感的應(yīng)用測試。首先我們使用Libxsmm進(jìn)行了測試,它是一個用于專門的密集和稀疏矩陣運(yùn)算以及深度學(xué)習(xí)原語的開源庫,支持使用Intel AMX、AVX-512和其他現(xiàn)代CPU指令集功能。Libxsmm目前主要用于HPC高性能計算、ML機(jī)器學(xué)習(xí),以及AD自動駕駛??梢钥吹?,在使用libxsmm庫計算時,擁有3D緩存的EPYC 9684X擁有巨大的優(yōu)勢,其算力高達(dá)7445GFLOPS,相對EPYC 9654領(lǐng)先多達(dá)67.5%,獲得了質(zhì)的飛躍。
新增應(yīng)用性能測試:OpenFOAM
OpenFOAM則是目前領(lǐng)先的免費(fèi)開源計算流體動力學(xué) (CFD) 軟件,在這個測試中,我們將使用drivaerFastback案例來分析汽車或老舊摩托的空氣動力學(xué),并計算其分析執(zhí)行時間,數(shù)值顯然是越小越好。同樣EPYC 9684X在該測試中擁有壓倒性的優(yōu)勢,其任務(wù)執(zhí)行時間只需83.76s,而EPYC 9654則需耗時108.51s,EPYC 9684X的任務(wù)執(zhí)行速度比EPYC 9654快了29.5%。
新增應(yīng)用性能測試:HeFFTe
HeFFTe是作為百億億次計算項目的一部分而開發(fā)的高效傅里葉變換庫。傅里葉變換 (FFT) 用于許多領(lǐng)域應(yīng)用,包括分子動力學(xué)、頻譜估計、快速卷積和相關(guān)信號調(diào)制、無線多媒體應(yīng)用。用戶可以在不同配置、選項下使用HeFFTe內(nèi)置的基準(zhǔn)測試,非常適合對CPU進(jìn)行測試。顯然在這類密集型計算中,3D緩存可以帶來顯著的作用,EPYC 9684X在使用HeFFTe庫進(jìn)行計算時,其算力可達(dá)135.81GFLOP/s,而EPYC 9654的算力為109.88GFLOPS,前者領(lǐng)先23.6%。
新增應(yīng)用性能測試:POV-Ray
接下來我們采用常見的POV-Ray對兩款處理器的性能進(jìn)行了測試,POV-RAY即持久視覺光線追蹤器是一種用于創(chuàng)建逼真照明圖像的開源工具,測試將使用光線追蹤來創(chuàng)建3D圖形。測試中,軟件將測量兩款處理器的光線追蹤完成時間,數(shù)值越小越好。測試結(jié)果與C-ray類似,在光線追蹤測試中,擁有3D緩存的EPYC 9684X占據(jù)優(yōu)勢,只是在POV-Ray中,其領(lǐng)先優(yōu)勢幅度有所縮小,EPYC 9684X的光線追蹤執(zhí)行速度比EPYC 9654快了6.5%。
新增應(yīng)用性能測試:NAS Parallel Benchmarks
我們還使用了NASA為高端計算機(jī)系統(tǒng)開發(fā)的基準(zhǔn)測試—NAS Parallel Benchmarks即NAS并行基準(zhǔn)測試,該測試主要用于評估超級計算機(jī)的并行運(yùn)算性能。其基準(zhǔn)測試來源于計算流體動力學(xué)軟件,我們在該軟件中測試了兩款處理器的塊三對角求解性能,數(shù)值越大越好。結(jié)果與OpenFOAM基于流體動力學(xué)的軟件類似,三級緩存容量達(dá)到1152MB的EPYC 9684X擁有壓倒性的優(yōu)勢,在該測試中領(lǐng)先EPYC 9654高達(dá)40.1%。
新增應(yīng)用性能測試:John The Ripper
John the Ripper是一款開源密碼安全審核和密碼恢復(fù)工具,可用于許多操作系統(tǒng),支持?jǐn)?shù)百種哈希和密碼類型,在本次測試中主要測試兩款處理器的MD5加密性能,測試數(shù)值越大越好。測試結(jié)果同樣證明更大的三級緩存容量是有效的,在這個測試中EPYC 9684X小勝對手,加密性能領(lǐng)先EPYC 9654約1.4%。
新增應(yīng)用性能測試:Rodinia
最后我們則采用了Rodinia這款專注于密集型應(yīng)用程序的套件進(jìn)行測試,Rodinia包含了應(yīng)用程序支持的CUDA、OpenMP和OpenCL并行模型。由于測試的是處理器,所以我們在測試中則選用OpenMP模型,測試處理器進(jìn)行流體動力計算的能力。測試結(jié)果的數(shù)值為處理器完成計算的時間。顯然處理器計算性能越強(qiáng),所花時間就越少,所以測試數(shù)值是越小越好。
結(jié)果也完全在我們的意料之中,與OpenFOAM、NAS Parallel Benchmarks這些基于流體動力學(xué)的測試類似,EPYC 9684X的表現(xiàn)更好,其計算執(zhí)行時間更少,計算執(zhí)行速度比EPYC 9654快了8.36%。
3D V-Cache就是最大功臣
綜合以上大量測試,顯然依靠3D V-Cache,EPYC 9684X是一款非常有價值的產(chǎn)品,本次測試中,它在所有測試中都戰(zhàn)勝了EPYC 9654。特別是在libxsmm、C-ray光線追蹤,以及HeFFTe、OpenFOAM、NAS Parallel Benchmarks等流體動力學(xué)計算中,EPYC 9684X都擁有壓倒性的優(yōu)勢。我們認(rèn)為根本原因就在于3D V-Cache的使用。畢竟處理器獲取數(shù)據(jù)主要有兩個來源,一個是直接在處理器內(nèi)部的緩存中獲取,一個是在外部內(nèi)存中獲取。
由于SRAM、DRAM兩種存儲介質(zhì)的性能不同,再加上物理位置也大不相同,一個近在咫尺,另一個遠(yuǎn)在天邊,所以緩存的傳輸速度、延遲表現(xiàn)都遠(yuǎn)優(yōu)于內(nèi)存,內(nèi)存的傳輸速度一般只有三級緩存的八分之一到十分之一。而EPYC 9654的三級緩存總?cè)萘繛?84MB,EPYC 9684X的三級緩存總?cè)萘窟_(dá)到1152MB,容量提升200%,這也就意味著EPYC 9684X的緩存可以存儲更多的數(shù)據(jù),處理器有更大的概率在自己的緩存中找到需要處理的數(shù)據(jù),無須再到“慢吞吞”的內(nèi)存中查找數(shù)據(jù),處理器無效等待數(shù)據(jù)傳輸?shù)臅r間大幅降低,自然處理器的計算效率,處理器的計算性能都可以得到顯著提升,特別是在那些計算量大、待處理數(shù)據(jù)多的密集型計算中,EPYC 9684X就能體現(xiàn)出很大的優(yōu)勢。
為了每天完成16500個流體計算任務(wù),AMD方面僅需要配置12臺EPYC 9384X雙路服務(wù)器,英特爾則需要配置21臺至強(qiáng)鉑金8462Y雙路服務(wù)器,在組建成本、能耗比上AMD也有很大的優(yōu)勢。
更值得一提的是,到目前為止,不論是在消費(fèi)級產(chǎn)品還是企業(yè)級產(chǎn)品上,競爭對手都未能推出同類產(chǎn)品,在緩存容量、處理器核心數(shù)量、計算線程數(shù)量、性能乃至組建成本、能耗比上都有巨大差距。所以對于有流體計算、數(shù)據(jù)壓縮、光線追蹤、有限元分析、電路自動化設(shè)計和結(jié)構(gòu)分析需求的用戶而言,以EPYC 9684X為首的EPYC 9084X系列處理器就是打造高性能、高能效比、高擴(kuò)展性專業(yè)解決方案的不二之選。
編輯:黃飛
?
評論