精選

[主筆漫談] 專屬型微處理器的復興

電腦的世界自始至終都是圍繞在軟體與硬體的協作之上,單純的硬體或是單純的軟體,是無法完成任何事情的。如果從這個角度看,所謂的軟體定義抑或是硬體定義,只不過也就是「為賦新詞強說愁」罷了! 回到本文主題的微處理器身上。早年,也就是從所謂的「電腦」(計算機)剛被發明出來,一直到筆者唸...

2022/03/22

[專家觀點] 層級或不要層級?一個層級或多個層級的儲存?

原文的副標是「受技術創新但也受市場現實影響的戰爭」
本文由原作者 Philippe NICOLAS 授權 storageforum.tw 翻譯發表,原文發表於 storagenewsletter.com(現已進入歸檔模式)。

數十年來,層級將這個產業分成兩群人:層級的擁護者,以及聲稱可以避免使用層級的批評者。這場辯論存在於商業的大環境中,一邊是數十年來存有大量資料需要管理的公司,另一邊則是希望用戶簡化儲存基礎架構。它關係到涵蓋基礎檔案資料的非結構化資料。

圖片來源:SearchStorage

顯然地在這裡我們看到專案的維度是很重要的。用戶是否將檔案伺服器或 NAS 這類的資源新增加到現在的週邊?抑或是用全新的模型取代並更新已經存在的環境?快速的答案是兩者都是,而這顯然意味著隱含存在不同的層級,因為不同的世代、模型、品牌、能力和技術會混合在一起而且終將共存。
延伸閱讀:「層級式儲存的建構

讓我們回顧一下過去,還記得 HSM (Hierarchical Storage Management) 模型,其中不同的儲存層級結合資料移動策略,候選的檔案被挑選並將其遷移到一個或多個的二級儲存層級。這些候選者是不活躍的內容,會增加主要儲存的 TCO。在這項技術裡,二級儲存會是其它基於磁碟的子系統,光碟或磁帶庫。從應用的角度來看,第二個層級都被遮蔽掉了,只有主要層級如主要檔案系統,或者我們該稱其為生產檔案系統會被看到。應用程序會看到所有的檔案,至少也會看到它們的中介資料(元數據),然後觸發存取的動作。對於沒有被遷移的檔案,所有存取是直接而且快速的;對於已經被遷移的檔案,增加了一個智慧軟體層來遮蔽被移動的內容,顯示元數據並提供一個機制來指向被遷移到二級儲存的資料所在位置。但是應用程序並不會直接讀取二級儲存上的檔案。應用程序讀取檔案,但存取要求會被暫停,然後在背景啟動一個從二級到主要層級的資料複製,當主要層級上的內容出現後,被中止的存取要求才會恢復。有不同的技術被開發出來,然後我們陸續看到存根 (stubs) 和其它的元件。

HSM 在高容量環境如大型主機,以及大型 Unix 系統、Netware 和一些 類 Windows Server OS 風格的環境中非常有名,我們可以列出像是來自 E-Systems 的 Amass 和 FileServ,是後來的 ADIC 現在為 Quantum 所擁有的,Cray Data Migration Facility 或稱為 DMF 現在是 HPE 產品,Epoch 在 1993 年被 EMC 收購現在是 Dell 的,Lachman/Legent 然後是 CA 現在則是 Broadcom,Avail Systems 的 NetSpace,被 Alphatronix 和 Artecon OEM,OpenVision AXXiON NetBackup HSM Extension 後來是 Veritas 的 (Symantec 然後再度是 Veritas),Cheyenne Software 的 NETstor,Palindrome 的 Storage Manager,Software Moguls 的 SM-Arch 和 OTG 後來的 Legato,Unitree,LSC 然後是 Sun 現在是 Oracle 的,HPSS,IBM ADSTAR DSM,Filetek 現在是 HPE 的(經由併購 SGI)或是 Programmed Logic 之後是 CrosStor,2000 年被 EMC 併購現在是 Dell 的。

檔案系統的整合帶來一些技術上的挑戰,而開發工作也大幅度的限制了 HSM 的採用,於是業界建立了資料管理應用程式介面 (Data Managment Application Programming Interface, DMAPI),藉由簡化和協調工作來解決這個問題。但是 HSM 碰壁了,新興的模型有更全域化的 ILM 理念、層級、路由、物件儲存和雲端儲存,在此期間我們看到快閃來了,新的大容量 HDD 和磁帶,高速網路,而所有技術的價格都在下降,許多的供應商提供產品。由於資料量不斷增長,商機巨大,市場不斷擴大,供應商眾多。

事實上,在 2000 年代早期資訊生命週期管理 (Information Lifecycle Management) 以其 DLM(D 代表資料)的風格,已經具體化其對資料價值及相關儲存成本的掌握。換句話說,熱資料必須駐留在具有高輸出、高 IO 或低延遲等高效能特性的快速儲存中。應用程序的 SLA 對儲存產生壓力,供應商試圖經由快速的大型 HDD 和較慢的具成本效益的 HDD 來優化 TCO。但在快閃之前,差距並不是那麼的容易顯現;特殊條件、大量資料的環境比較適合這種方式。

這種資料存在於多個儲存層級的概念也非常接近於歸檔,特別是在最新一個世代被稱為主動式歸檔 (Active Archive) 中瓦解了存取時間,不需要用戶有特別的動作或管理工具,資料就可以被應用程序存取。
延伸閱讀:「主動式歸檔−智慧化的巨量資料儲存新架構?

層級是一個現代術語,明顯的與資料從產生到抛棄過程中的溫度有關。當然,HSM 使用了一些類似的閥值模型像是最低存取時間之類的屬性。在兩個極端等級之間可以設置其它的等級,並且將之連結到不同的儲存實體。層級也是導入網路檔案管理 (Network File Management, NFM) 與網路檔案虛擬化 (Network File Virtualization, NFV) 的契機,運用帶內 (in-band) 或帶外 (out-of-band) 的設計,它們可以統一與聚合檔案伺服器/NAS。一旦我們瞭解了這個價值,在消費者與生產者間有了一個邏輯後,移動和操作檔案資料就變得容易。使用者不僅有了遷移和置換檔案伺服器的可能性,也可以增加一個新的,在不同的伺服器上保留多個拷貝,在最快的伺服器上為熱資料建立一個優化的方案,反之亦然,而且是完全無縫的。所有人都討厭的 HSM 回抄行為被路由機制取代,這個機制將讀取要求指向資料所在的位置而避免資料的移動。效果也很顯著,存取時間減少也大幅度的改善使用者體驗。那是檔案區域網路 (File Area Network, FAN) 的時代,供應商有來自 Z-force 的 Attune,該公司的資產稍後在 2009 年被 F5 Networks 收購,Acopia Networks 也在 2007 年被 F5 收購,AutoVirt 倒閉,NeoPath 在 2007 年被 Cisco 收購,Rainfinity 在 2005 年被 EMC 收購,還有 NuView 在 2006 被 Brocade 收購成為 StorageX。Brocade 甚至嚐試開發一個新世代的版本稱為檔案管理引擎 (File Management Engine)。如今 StorageX 由 Data Dynamics 推廣、開發與支援。

我們還必須列出結構化資料的供應商,包括被 HPE 收購的 Outerbay,被 IBM 收購的 Princeton Softech,被 Informatica 收購的 TierData 和 Applimation,被 Synoptek 收購的 Indusa,被 Harris Computer 收購的 Sand,被 Teradata 收購的 RainStor,Solix 仍然獨立當然也是原生資料庫供應商的產品。在結構化資料裡的概念是將記錄卸載到二級資料庫以減少活躍資料庫的大小,也要保持對活躍、歸檔兩個資料庫的存取能力。活躍或熱資料庫的大小因此縮小,可以提供更快速的查詢數量和結果。

有三項關鍵技術和服務出現,而且對它們的需求也被確認了,它們是快閃、物件和和雲儲存。所有的這些都說明層級在我們的世界中無處不在。使用者可以將資料層級到到本地物件儲存或雲儲存,特別是當他們在不同世代的檔案伺服器和 NAS 中混用 SSD 和 HDD 時。這種較新的資料管理模型組合層級、遷移、分析、分類、索引和搜尋、複製/DR、磁帶/光碟和雲支援、WORM 功能……等,這裡有許多供應商,例如 Aparavi、Atempo、Congruity360、Data Dynamics、 Datadobi、FujiFilm、Grau Data、Hammerspace、HPE DMF、HPSS、IBM、Komprise、Moonwalk、Nodeum、Point Software and Systems、QStar、Quantum、Spectra Logic、StrongBox、Tiger Technology、Versity……等等,當然也有來自大公司的產品。

今天我們有幾個儲存實體可用於符合應用程序目標的專案建置:快閃/SSD、HDD、磁帶和 S3 在本地的物件儲存或是雲儲存。請記住,它們有些是媒體技術,有些則是存取方式。

市場也讓我們思考一些激進的新方法。事實上,為了避免多個層級,如果它是在本地的產品,解決方案必須在成本能夠勝過其他層級,甚至是雲儲存的訂價也要考慮到資料管理的額外成本。我們想到的例子是一個全閃存可擴展的 NAS 解決方案,它具有先進的數據減量和糾刪碼技術,在成本上可以與 HDD 競爭。這樣用戶可以將所有資料儲存在同一層級上,一個最佳成本的快閃層級。它降低了複雜性,但這並不意味著這種模型可以勝過雲儲存並且還可以解決能源成本。請記住,當您希望儲存在 10 年內完全可以線上存取的 10PB 資料,您是否需要這個?或者您可以接受較多的延遲但可以大幅度的降低成本?我們不做任何建議,因為每個專案都不同,但請記住影響儲存解決方案的 3 個維度:資料減量比率、糾刪碼硬體的開銷比率和能源因素。