企業(yè)環(huán)境復(fù)雜多變,快速增長的業(yè)務(wù)需求使得企業(yè)在數(shù)據(jù)存儲規(guī)模、存儲性能和可靠性等多方面提出了越來越高的要求。SSD固態(tài)硬盤憑借極高的讀寫性能、極低延遲成為越來越多企業(yè)的首選解決方案,并在數(shù)據(jù)庫、虛擬化、應(yīng)用加速、大數(shù)據(jù)、云計算乃至人工智能等領(lǐng)域發(fā)揮重要作用。企業(yè)級SSD往往需要在高并發(fā)、大壓力、24小時全天候運行的嚴苛環(huán)境下運行,其可靠性是企業(yè)級用戶的重點關(guān)注之一。
可靠性指的是一個部件或系統(tǒng)在規(guī)定的操作條件下,在特定的時間內(nèi)繼續(xù)執(zhí)行其預(yù)定功能的能力。對企業(yè)級SSD而言,它是非常重要的一項指標,不僅直接決定產(chǎn)品出貨的良率、故障率等核心指標,而且對數(shù)據(jù)可用性、一致性的保護,也起著關(guān)鍵作用。
01
可靠性量化指標 —— MTBF
SSD的“可靠性”通常以MTBF量化衡量。MTBF全稱Mean Time between Failures,平均故障間隔時間,即產(chǎn)品在總的使用階段累計工作時間與故障次數(shù)的比值。它反映了產(chǎn)品的時間質(zhì)量,產(chǎn)品故障越少,MTBF越高,產(chǎn)品可靠性也就越高。
與消費級SSD產(chǎn)品相比,企業(yè)級SSD在可靠性方面面臨更高挑戰(zhàn)。根據(jù)OCP(Open Compute Project)給出的建議,部署于數(shù)據(jù)中心的企業(yè)級SSD MTBF平均故障間隔時間要在2,000,000小時,也是目前企業(yè)級SSD奉行的標準。但是,MTBF是需要實際跑測驗證的,不能憑空而來。按照傳統(tǒng)方法,要完成多次200萬小時的驗證顯然不可能。那么,這長達200萬小時的平均故障間隔時間,又是如何得到的呢?
答案是基于一定樣本量,在一定時間段內(nèi)通過加速因子加速(如寫入量加速、運行環(huán)境溫度加速)進行統(tǒng)計推斷。過程模擬典型用戶場景,通過實測驗證理論值,提前驗收產(chǎn)品質(zhì)量。嚴謹?shù)呐軠y驗證將直接決定MTBF“可靠性指標”是否真的可靠。
02
MTBF 的表征時期
和大部分電子產(chǎn)品一樣,SSD同樣符合浴盆曲線(失效率曲線)特性,它分為三個關(guān)鍵時期:
早期失效期(Infant Mortality)
產(chǎn)品在剛生產(chǎn)好并加電使用時,因良率等因素會導(dǎo)致其失效率較高。為保證交付到客戶手上的SSD符合企業(yè)級可靠性標準,企業(yè)級SSD廠商會對所有生產(chǎn)線上的產(chǎn)品進行一定時長的老化跑測,以最大程度暴露產(chǎn)品可能的早期失效,保證客戶拿到的產(chǎn)品不存在早期失效問題。
偶然失效期(Random Failures or Normal Life)
這一階段對應(yīng)正式出貨產(chǎn)品,產(chǎn)品失效率較低,且較穩(wěn)定。產(chǎn)品可靠性指標MTBF所描述的就是這個時期,即產(chǎn)品的穩(wěn)定使用階段。
磨損期(Wearout Phase)
該階段因產(chǎn)品磨損、老化等因素,其失效率會隨時間的延長而呈指數(shù)級增加。此時SSD宣稱壽命已經(jīng)結(jié)束,雖可繼續(xù)使用,但壞塊會隨著PE的增加而加速上升,SSD的有效預(yù)留空間(OP)逐漸消耗殆盡,設(shè)備失效率提高。對企業(yè)級SSD而言,進入磨損期的產(chǎn)品已不建議繼續(xù)使用。
03
MTBF = MTTF?
在MTBF之外,你可能還聽過另外一個可靠性描述的詞——MTTF。對于一個可維護的設(shè)備來說,MTBF = MTTF + MTTR,三者關(guān)系如下:
MTTF (Mean Time To Failure,平均失效時間):指系統(tǒng)兩次失效的平均時間,取所有從系統(tǒng)開始正常運行到發(fā)生故障之間的時間段的平均值。MTTF =∑T1/ N;
MTTR (Mean Time To Repair,平均修復(fù)時間):指系統(tǒng)從發(fā)生故障到維修結(jié)束之間時間段的平均值。MTTR =∑(T2+T3)/ N;
MTBF (Mean Time Between Failure,平均無故障時間):指系統(tǒng)兩次故障發(fā)生之間(包括故障維修)時間段的平均值。MTBF =∑(T2+T3+T1)/ N。
因為MTTR通常遠遠小于MTTF,所以MTBF近似等于MTTF。
04
MTTF理論計算公式,2,000,000小時如何而來?
最簡單的情況下,MTTF計算遵循如下公式:
其中:
Ai 為 SSD i 的加速因子;
ti 為 SSD i 的測試時間;
nf 為出現(xiàn)故障 SSD 的數(shù)量;
a 為置信度(confidence limit,60%);
x2 為卡方分布(chi-squared distribution)。
上述等式中的加速因子通常分為3類:
未加速因子:A=1,通常用于固件故障;
TBW(Total Bytes Written)加速因子 :通過增加數(shù)據(jù)寫入強度進行壽命加速;
溫度加速因子 :通過升高測試環(huán)境溫度進行故障出現(xiàn)加速。
TBW (Total Bytes Written) 加速因子
TBW是SSD壽命單位,以壽命為1.5 DWPD,用戶容量3.84TB PBlaze6 SSD為例,其5年總的數(shù)據(jù)寫入量(也就是現(xiàn)場部署寫入量field)為10.5 PB,對應(yīng)每天數(shù)據(jù)寫入量為5.76 TB。如果增加每天的數(shù)據(jù)寫入量(加速寫入量stress),相當于加快消耗SSD壽命,可以加速故障出現(xiàn)。TBW加速因子計算方法如下:
假設(shè)一個用戶容量為100G的SSD,其產(chǎn)品規(guī)格書定義SSD壽命為175TBW,典型使用場景下可使用5年(43800個小時)。其在1008小時內(nèi)寫入130TB的數(shù)據(jù),寫放大為1.2,則TBW加速因子為32,如果短時間內(nèi)寫入更多數(shù)據(jù),則TBW加速因子也會相應(yīng)提升。
溫度加速因子
NAND因其固有特性,數(shù)據(jù)保持力會隨著溫度的升高而降低。阿倫尼烏斯公式(Arrhenius Equation)指出,在室溫 40℃ 下SSD放置 1 年(8670個小時),相當于在 85℃ 的老化室中放置 52 個小時。
JESD 22-A108定義了溫度隨時間對SSD的影響,執(zhí)行高溫運行壽命(HTOL,High Temperature Operating Life)測試,可確定長時間高溫條件下SSD運行的可靠性。協(xié)議規(guī)定,如果沒有特殊要求,SSD需在 125 °C 的結(jié)溫壓力下測試。但企業(yè)級SSD一般會設(shè)計高溫保護邏輯,防止溫度過高造成NAND數(shù)據(jù)保持力下降和元器件的損壞,所以SSD的實際工作溫度不會達到125℃。
對于溫度加速因子,計算方法如下:
其中:
Ea 為失效模型的活化能 ,一般為0.7 eV;
k 為玻爾茲曼常數(shù),8.617 x 10-5 eV/°K;
T? 為工作溫度 (標準取值為 55°C 或者 328°K);
T? 為測試加速溫度。
MTTF計算示例
假設(shè)樣本量為 400,測試時間為 1008 小時,加速因子Ai = A(TBW) * A(T) 為10,失敗的數(shù)量為0,置信度為60%,則 MTTF = MTBF = 4,400,000小時。
注意,MTBF是和溫度嚴格相關(guān)的。這一點在OCP Datacenter NVMe SSD Specification中也有提到:
MTBF 2,500,000小時(AFR≤0.35%),對應(yīng)的SSD運行溫度為0℃~50℃;
MTBF 2,000,000小時(AFR≤0.44%),對應(yīng)的SSD運行溫度為0℃~55℃。
但理論和現(xiàn)實總是有差距的。現(xiàn)實中產(chǎn)品意義上的MTBF測試,很難達到10倍的加速因子,TBW加速因子僅能用于測試NAND顆粒的壽命,實際測試中還需要考慮電路和物理接口等硬件部分的可靠性。而這部分,只能靠溫度來加速。實際操作中,MTBF=200萬小時的測試,需要至少用2000片樣品在加速因子作用下,跑滿1000小時以上。
05
MTBF 和 AFR 又是什么關(guān)系?
除了MTBF指標,還有其他可靠性量化表征指標,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互轉(zhuǎn)化。
故障率λ:SSD關(guān)鍵元器件選型時,需要確保每個元器件的故障率 λ 達標。相比故障率指標,MTBF的定義更加直接,也更適用于表現(xiàn)系統(tǒng)級的可靠性;
AFR:年化故障率,可以更好地了解在任何一年中發(fā)生硬盤故障的幾率。
MTBF 和 AFR轉(zhuǎn)化公式如下:
MTBFhours = 1/λhours
MTBFyears = 1/(λhours*24*365)
AFR = 365*24hours*λhours = 8760hours/MTBFhours
MTBF 和 AFR 的數(shù)值對應(yīng)關(guān)系如下:
企業(yè)級SSD產(chǎn)品可靠性MTBF ≥ 2,000,000小時(@55℃),換算為年化失效率AFR ≤ 0.44%,對應(yīng)FFR(Functional Failure Requirement,SSD在整個磨損壽命時間范圍內(nèi)累積的功能失效率,以5年保修期為參考)≤2.2%。
Memblaze全系列企業(yè)級SSD均按照2,000,000小時MTBF @55℃ /2,500,000小時MTBF@50℃為標準,滿足55℃/50℃環(huán)境下7×24小時穩(wěn)定不間斷運行要求、40℃環(huán)境下數(shù)據(jù)至少3個月斷電保持能力以及低于1E-17的UBER不可修復(fù)錯誤率。
06
MTBF的驗證
Memblaze自研測試平臺Whale系統(tǒng)
在數(shù)據(jù)可靠性技術(shù)領(lǐng)域,Memblaze自研了MemSolid 技術(shù)集,以保證企業(yè)級數(shù)據(jù)的一致性和可靠性。通過全路徑數(shù)據(jù)保護、LDPC軟判決解碼糾錯技術(shù)、元數(shù)據(jù)跨Channel備份保護、Die間動態(tài)RAID5恢復(fù)壞塊數(shù)據(jù)機制,以及重讀保護和過溫保護等技術(shù),實現(xiàn)了PBlaze可持續(xù)的數(shù)據(jù)一致性保護,保障企業(yè)關(guān)鍵業(yè)務(wù)數(shù)據(jù)資產(chǎn)始終處于安全可靠的存儲環(huán)境中。
為確保出廠的SSD產(chǎn)品能夠滿足MTBF的標準,Memblaze運用十余年在固態(tài)硬盤領(lǐng)域的經(jīng)驗積累,以及對用戶實際應(yīng)用的理解,自主研發(fā)出MTBF測試平臺 —— Whale系統(tǒng)。
它參照JEDEC標準打造,適用于PCIe SSD的研發(fā)(DVT)、環(huán)境應(yīng)力(EST,Environmental Stress Test)、數(shù)據(jù)保持力、生產(chǎn)(老化,ORT,Ongoing Reliability Testing)、RDT等測試。Whale系統(tǒng)預(yù)置了最接近客戶真實使用場景的測試案例,采用合理的加速因子對RDT階段產(chǎn)品進行長時間跑測,成為產(chǎn)品量產(chǎn)前的質(zhì)量保障。
根據(jù)Memblaze的出貨量和實際故障率統(tǒng)計,PBlaze系列SSD的實際累計產(chǎn)品失效率(CFR,Cumulative Failure Rate)遠低于標稱的年化故障率。
經(jīng)過十幾年在SSD行業(yè)的深耕打磨,Memblaze 已經(jīng)形成從芯片、軟件、硬件、生產(chǎn)、出貨等各個環(huán)節(jié)的嚴密設(shè)計和嚴格的質(zhì)量管控體系,能夠保證PBlaze系列企業(yè)級固態(tài)硬盤為客戶提供卓越的可靠性,也極大降低了客戶系統(tǒng)運行開銷(OPEX)和總體擁有成本(TCO),而Memblaze也將繼續(xù)以匠心精神,不斷打磨,不負所期!
責任編輯:haq
-
存儲器
+關(guān)注
關(guān)注
38文章
7644瀏覽量
167094 -
SSD
+關(guān)注
關(guān)注
21文章
2965瀏覽量
119439
原文標題:揭秘:SSD的“可靠性”到底可不可靠
文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
影響電源模塊可靠性和性能的挑戰(zhàn)

關(guān)于LED燈具的9種可靠性測試方案

可靠性測試包括哪些測試和設(shè)備?

提供半導(dǎo)體工藝可靠性測試-WLR晶圓可靠性測試
電機微機控制系統(tǒng)可靠性分析
IGBT的應(yīng)用可靠性與失效分析

產(chǎn)品可靠性的關(guān)鍵指標

半導(dǎo)體集成電路的可靠性評價

霍爾元件的可靠性測試步驟
半導(dǎo)體封裝的可靠性測試及標準

PCB高可靠性化要求與發(fā)展——PCB高可靠性的影響因素(上)

高可靠性BAW振蕩器MTBF和時基故障率計算

汽車功能安全與可靠性的關(guān)系

評論