精選

[企業儲存觀察室] 2010 年代企業資料儲存產業十年,之一

從今年開始就是 2020 年代了。過去十年間,企業資料儲存產業發生了不少的事,筆者回顧本站所有的資訊,企圖找出那些改變產業或技術趨勢的事件,想要在 2020 年留下一個紀錄。原本預計以年為單位,找出當年度的某一個最重要的事件。後來在瀏覽資料時發現,幾乎沒辦法以單一事件來談,最終還...

2019/12/24

[企業儲存觀察室] 層級式儲存的建構(下)

上文接「層級式儲存的建構(中)

不論是上述哪一種方式,資料的移動必須具備使用者/應用的透通性,也就是應用不會也不需要知道資料現在實際存放在哪個層級上,依然是到原來設定的位置/目錄讀取資料。
資料被移動到下一個層級時,軟體會在原來層級留下一個標記 (Stub),使用者/應用會認為資料仍然在原本的層級上;當資料需要裡讀取時,軟體會自動把資料從下一個層級移動回來。


自動化的層級式儲存架構是有可能需要被調校的,才能達成資料放置的最佳化。調校的方式可能是經由機器學習來更精準的預測資料存取模式,或是以人工學習的方式,來調整自動化的規則,以更符合資料存取的的需求。

人工智慧 (AI) 與機器學習 (ML) 的層級式儲存
但是,最近興起的人工智慧,在選擇資料儲存平台時,會有一些不同的考量。AI 的資料儲存平台必須提供高效能、可擴展性、高吞吐量以及低延遲。但當它涉及到數百 TB 或是 PB 級的資料等級時,這時候如何有效的管理儲存平台的成本,就會變成很重要的事了。

ML 和 AI 訓練通常會以批次處理的模式運行,雖然是批次處理,但卻是高度隨機的存取。經由批次處理,資料科學家可以建立機器學習的 AI 模型,並隨著時間推移來使模型更加完善。資料存取的高效能與低延遲是重要的,因為執行速度越快,模型的測試時間就越短,這意味著更多的迭代與更好的模型。

如果只考量效能與延遲,0/1 級儲存當然是最好的選擇。但是使用最高層級的儲存是需要付出代價的。在通常的情況下,1 級儲存要擴展到 PB 級的代價,並不是所有的企業組織可以負擔得起的,因此層級式儲存是在設計 ML/AI 資料儲存時必須要。但是,傳統的,也就是上面我們所提到的,根據讀取頻率來優化資料存放位置,並不適用於 ML/AI 的要求。

在 ML 與 AI 分析中,整個資料集都要保持活躍狀態並且可用於分析,任何時候都有可能會需要存取全部的資料。這就意味著使用中的資料必須位於具有相同效能的儲存層級,才不會影響模型的訓練。而且資料存取的隨機性極高,這也會使得要預測哪些資料需要快取,以及如何確定快取大小,或是效能較好的儲存層級難以實現。

為機器學習與人工智慧工作負載部署儲存的建議是,簡單地使用 2 個層級的儲存架構,效能層級與容量層級。
只需要 2 個層級?是的,這與典型的層級式儲存不同!效能層級需要提供儘可能高的效能與最低的延遲,同時還必須可以根據系統預計處理的最大資料集,進行橫向擴展的能力。横向擴展是為了在增加容量時,同時保持高效能與低延遲。

快閃儲存是效能層級最好的選擇,而且由於在運行 ML/AI 模型建立的運算時,是偏向讀取型的作業,所以像 TLC 或 QLC 這種成本較低的快閃就非常適合,NVMe 帶來的低延遲特性,也是適合於 ML/AI 環境的。

容量層級需要可以長時間,這裡指的是在幾個月或幾年的時間裡,安全地儲存所有的 AI 模型資料。因此需要高度持久性的可擴展性儲存平台,物件儲存是一個非常適合 ML/AL 容量層級的儲存。物件儲存的持久性包括兩個部份:在硬體層面的冗餘組件與 RAID 保護,以及軟體層面的資料糾刪碼、多份拷貝與自我修復能力。物件儲存適合長期保存資料,因此多使用成本較低的大容量碟碟,這些是不適合於做 ML/AI 的日常處理。物件儲存也具備地理分散的能力,這也適用於有多個位置或來源的資料存取。
延伸閱讀:「物件儲存可能的應用場景

ML/AI 儲存平台的挑戰在於如何混合儲存架構並同時擁有資料的移動性,也就是必須要整合效能層級和容量層級,這需要手動或自動流程在兩個儲存層級間移動資料。
傳統的自動化層級式儲存軟體在此並不適用,現在某些 AI 儲存產品可以直接與物件儲存整合來簡化資料移動的過程。雲端儲存也是容量層級一個好的選擇,畢竟它是用來長期保存資料,某些產品可以整合內部(本地)與外部(雲端)的資料移動。

如同本文一開始提到的,層級式儲存架構之所以出現,其主要的驅動力來自於財務上的考量,而非業務或 IT 技術上的需求。所以如果有一個關鍵性應用需要極高的儲存效能,極短時間的延遲都可能造成巨大的、超過儲存成本的損失,例如交易搓合系統,那你需要的肯定是 1 級儲存。

大部份的應用都不是這樣的交易系統,因此層級式儲存就可以為企業組織帶來財務上的好處:
降低儲存成本
經由將每個資料類別存放在提供最低效能需求的最少成本儲存上,企業組織可以避免為不必要的高效能儲存付費。將最大量的資料,放在最低成本的儲存上,同時維持各應用在最低需求的效能上持續運作,儲存成本可以大幅度的降低。

更高的儲存效率
層級式儲存的理想配置,可以以較少的高效能儲存,與大容量的低成本儲存,組合成一個大容量的高效能儲存。當需要存取資料時,它會正好位在高效能儲存上,而其它時間資料會存放在低成本的儲存上,藉此提昇整體儲存效率。

提昇舊儲存利用率
新推出的儲存系統通常會有更好效能,這是因為技術與製造工藝的演進。不論多新的儲存系統,在幾年之後一定都會處於一個尷尬的狀況:論效能,比不上更新的儲存系統,但也還蠻好用的,又還不到淘汰的時間點。層級式儲存就可以為這些「不太老」,甚至是「老,但還堪用」的儲存系統,找到一個合適的位置,延續舊有設備的資產價值。