精選

[企業儲存觀察室] 持續型記憶體與企業儲存

前些時候有讀者問我關於持續型記憶體 (Persistent Memory, PM) 的事,因為筆者之前還沒有特別去研究這項議題,所以這次就搜集整理了一些資料整理出來分享,算是現學現賣! 儲存與成本間的關係取決於存取的效能;效能越快成本越高,成本越高容量就會越小,離運算元(處理...

2019/05/28

[企業儲存觀察室] 關於固態硬碟的可靠度(下)

前文接「關於固態硬碟的可靠度(上)

MTBF-是衡量硬體產品或組件在其預期壽命內的可靠性指標,對於大多數的硬體組件,在兩次故障之間的時間通常是數千甚至數萬個小時。目前市面上的銷售的硬碟機,其 MTBF 多在 100~150 萬個小時之間。不過,這並不意味著硬碟機可以持續運作那麼多個小時而不會出現故障,很多人都誤解這個數字的實際涵意。

圖片來源:Backblaze

MTBF 120 萬個小時的意思是,在某一型號給定的 1,000 顆硬碟機樣本數裡,平均每天使用 8 小時,則預計每 150 天就會出現一次故障,也就是每年大約 2 次。相對的,如果每天 24 小時運行,那麼預計出現故障的天數就會縮短到每 50 天一次,也就是每年大約 7 次。
也就是說如果有一部擁有 1,000 同一型號硬碟機的磁碟陣列,7x24x356 每天不間斷的運作,每年大約會有 7 顆硬碟故障需要被更換,這樣的場景是不是就較貼近我們的經驗值?

可靠性因素如何影響固態硬碟?
這些因素的重要性取決固態硬碟的使用方式,正確的問題應該是硬碟如何在應用中運行?固態硬碟使用在個人用筆記型電腦、資料中心還是火星上的探測飛行器中,有不同的效能和可靠性標準。
製造商有時會指定某些型號的固態硬碟是專為某類型的應用負載而設計的,例如寫入密集型、讀取密集型或混合使用型。某些製造商也允許客戶為特定固態硬碟選擇最佳的耐久性和儲存容量。例如具有高交易量資料庫的企業用戶可能會選擇以犠牲容量為代價的高寫入次數固態硬碟,或是寫入次數較少資料庫的使用者,可能就會選擇低寫入次數但高容量的固態硬碟。

對於大部份的企業用戶因為採購程序與成本問題,也許無法指定或要求廠商提供特定的固態硬碟,這其實也沒有什麼好擔心的。
因為每一家供應商對其產品都有保固的條款,即使保固期過了,在簽訂維護合約期間,廠商也必須承擔故障硬碟的換修責任。只要有正常執行資料保護措施,並不需要擔心單一固態硬碟故障的問題。

初期的快閃儲存/固態硬碟的企業用戶,擔心的另外一個問題,就是同一個生產批號,例如在同一座磁碟陣列裡的固態硬碟,是否會在同一個時期面臨寫入耗損而故障的問題?
首先,現在的磁碟陣列通常都會針對固態硬碟的耗損問題,在設計上加入特別的考量以延長耐用度,並且避免所有的固態硬碟在同一時間到達寫入耗損的極限值。即使是在應用上特意去讓每一顆硬碟都平均的寫入(其實這很難做到),也很難創造出在同一時期接連故障的狀況。
某些供應商的系統,也會監控固態硬碟的 P/E 循環,讓企業用戶可以精準的掌握固態硬碟的健康狀況。在筆者的經驗中,也確實未曾碰到過這樣的狀況。

固態硬碟最終一定會故障,但在真正的故障出現之前,通常會有一些跡象提前發出告警。也許大家有聽過一顆垂死的磁碟機發出怪異的點擊聲響,但固態硬碟沒有會移動的組件,因此我們不會聽到這類的聲音。但的確有一些指標,提醒使用者固態硬碟已經接近其生命週期的終點,是該採取行動的時候了。

1) 涉及壞資料區塊的錯誤
在長久的使用後,某些資料區塊就會損毁,無法使用。硬碟都會有備用的資料區塊,來取代損毁的資料區塊。當沒有備用資料區塊可用時,電腦就會不斷嚐試去讀取或寫入壞掉的資料區塊,在一段長時間的嚐試並以失敗告終時,使用者就會接受到磁區損毁的訊息。

2) 檔案不能讀取或寫入
基本上這也是涉及壞的資料區塊,通常有兩種情況:1) 系統在寫入資料到硬碟時偵測到壞的資料區塊,從而拒絕寫入資料。2) 資料已經被寫入到硬碟,偵測到壞的資料區塊,因此拒絕讀取資料。

3) 檔案系統需要被修復
也許僅僅只是因為電腦沒有被正常關機而在螢幕上出現這類的錯誤訊息,但因為現代的檔案系統可以在必要時自我修復,如果這類訊息頻繁的出現,或是不同的檔案系統恰巧都涉及到某一顆固態硬碟,那它可能就是一個跡象。

4) 系統在啟動過程中崩潰
電腦在啟動過程中崩潰可能是硬碟正在出現問題的信號。它可能牽涉到主要的檔案系統或是作業系統重要的啟動資料區塊,在變得更糟,硬碟完全故障之前,儘快確保所有資料都有一個當前狀態的備份。

5) 硬碟機變成唯讀的狀態
硬碟機拒絕寫入更多的資料,只能讀取資料,在變得更糟,硬碟完全故障之前,儘快確保所有資料都有一個當前狀態的備份。

看到這裡讀者們一定開始覺得⋯⋯沒錯,固態硬碟除了它是電子式的,沒有可移動的組件外,它在作業系統或應用程式上的呈現,跟磁碟機並沒有太大的不同,所以⋯⋯兩者瀕死前的症狀其實是相同的,唯一不同的就是上面提到過的聲響。

所以讓我們回到上面所提出的兩個問題。
問題 1:固態硬碟的故障速度是否比磁碟快?
答:這取決於硬碟使用的技術與它們如何被使用,在某些應用上磁碟也許會更適合,在大多數的狀況下,固態硬碟不會比磁碟機更不耐用。

問題 2:固態硬碟合理的預期壽有多長?
答:只要不錯用固態硬碟的技術,例如在高度寫入集中的應用上使用 QLC,固態硬碟應該可以持續到製造商所期望的時間(例如 5 年或更長)。如果對這方面有所疑問,應該要參考固態硬碟製造商或是儲存技顧問,以確保固態硬碟的使用方式是符合其在設計上的最佳使用方式。

所以,固態硬碟通常會持續到我們所需要的時間。

固態硬碟與磁碟是不同種類的,與其它儲存媒體相較,它們有其優勢和缺點。好消息是,它們的優勢-效能、耐用性、尺寸、功耗等-整體上都得到了相當好的支持。

固態硬碟使用者升級的可能性要比更換硬碟的可能性大得多,因為他們會升級到較新的技術、更高的容量或更快的硬碟,而不會是因為使用壽命到了而不得不換。在正常使用方式下,我們可以期待使用固態硬碟數年。重要的是固態硬碟足夠可靠,在其生命週期內不會遺失資料。如果有關注系統訊息,在固態硬碟真正故障前,會有充分的時間獲得警示,在資料無法讀取前更換硬碟。

瞭解不同的 NAND 快閃記憶體技術,及其如何影響可靠性是必要的,看看是否值得為了 SLC 而花費更多成本。除非在特定的應用中其寫入的次數比前述我們談到多很多,否則從信譽良好的供應商取得的高品質固態硬碟,就足以支撐到預期的使用時間。

留意任何存取失敗或資料磁區損毁的信號,再提醒一次,無論使用的是哪種類型的固態硬碟或是磁碟機,都一定要有一個堅實的備份計畫。