精選

[軟體定義儲存的故事] HCI 和 SDS 的曖昧故事

在 [企業儲存觀察室] HCI 蹭 SDS 搞曖昧? ⼀⽂當中,作者提到 HCI 超融合與 SDS 軟體定義儲存做為兩種不同、沒什麼相關的技術,不應混為⼀談。 ⾝為⼀個在軟體定義儲存打滾多年的產品經理,忍不住想跳出來說幾句話:現在的 HCI 會有看不盡的精彩,還有說不清的混亂,也...

2020/10/15

[企業儲存觀察室] 主動式歸檔−智慧化的巨量資料儲存新架構?(上)

到底有多少資料需要被儲存?

根據 IDC 最新的 DataAge 2025 報告,IDC 預估被創造出來的資料量,每年將以約 30% 的速率增長,到 2025 年時全球的資料量將會到達 175ZB。不過大部份的資料都是瞬間產生的,並不會導致實際的儲存需求。預估到 2025 年實際的儲存需求量為 7.5ZB,這個數字在 2019 年時大約是 1.1ZB,這個數字並不算太令人驚訝。
延伸閱讀:「2025 175

在這些資料中,當然有一些是需要經常被存取的,但其中的大部份、預估至少有 60% 的資料,其實並不需要高層級的儲存,它可以存放在效能較差的儲存層級上。

資料在被創造出來 90 到 120 天左右時,它通常就不會再變動,也很少會再被存取,這時資料就到達可歸檔的狀態。並不是所有的資料都需要,但大部份的資料是可以被歸檔的,也許是因為(法律上)強制性留存的要求,或是可以從歸檔資料中發現出新的價值,因此資料歸檔的需求在不斷的增加中。而現在出現一個新的詞彙,叫做主動式歸檔 (Active Archive, AA),希望能讓企業組織從被保留下來的資料中,快速的獲得資料新價值。

一個稱為主動式歸檔聯盟 (Active Archive Alliance, AAA) 的組織,現在則大力的提倡這種主動式歸檔架構,我們就先來看一下什麼是主動式歸檔。

什麼是主動式歸檔?

主動式歸檔管理資料,使其可以被快速搜尋、取回和分析。它是一個高價值、可擴展的儲存架構,它可以跨越虛擬檔案系統,快速地存取歸檔資料,並且可以管理儲存媒體與儲存系統之間的資料,這些通常是基於使用者定義的規則。使用者可以在本地、雲端或同時在兩者上實施主動式歸檔。

主動式歸檔系統使用以節點為基礎的架構,與傳統歸檔系統相比,它具備高度並行執行緒來移動更多的資料,並且可以擴展以適應 PB 等級的資料移動。主動式歸檔生態系可以整合 SSD、HDD、NAS 節點、磁帶、光碟和雲端。這個系統使用智慧資料移動軟體,可以支援檔案、區塊與物件,包括非結構化資料。

一些新的技術,像是開放標準磁帶檔案系統 LTFS,現在也提供更高功能性與更具經濟效益的主動式歸檔。雲端服務供應商 (Cloud Service Providers, CSP) 以及他們的合作夥伴,也在建置儲存服務支援主動式歸檔上取得進展。豐富的中介資料 (Metadata) 可以提供更多的智慧,全域式命名空間 (Global Namespaces) 消除資料孤島,可以在單一的虛擬儲存池中更快的搜尋和取回資料。同時,正在發展中的人工智慧為歸檔資料開發出更多價值,也為主動式歸檔帶來更多的機會。

以下這張圖展示了主動式歸檔的架構。

圖片來源:主動式歸檔聯盟 (AAA)

講到這裡,有些(資深的)讀者應該會回憶起十數年前曾經流行過的另一個語彙−資訊(料)生命週期管理 (Information/Data Lifecycle Management, ILM/DLM)。就筆者的理解,主動式歸檔我們可以將其視為更先進的 ILM/DLM 版本,或者反過來說,ILM/DLM 是主動式歸檔的雛型。

早年談 ILM/DLM 時,有幾點與現在談 AA 時是不同的:
  • 涉及的儲存媒體並沒有尚未出現的快閃與雲端。
  • 資料量較少,也不需要較快速的存取速度,因此也沒有所謂的橫向擴展節點。
  • 歸檔軟體多為專屬軟體,並不互通,因此也沒有所謂的「跨虛擬檔案系統」的能力。
  • 中介資料的概念還很模糊,只有在搭配某些應用像是郵件歸檔軟體時,才會具有以中介資料搜尋與回取的功能;絕大部份的 ILM/DLM 軟體都是以檔案為單位,在使用者定義的規則下進行歸檔(將資料移到較低的儲存層級)。相對於此,AA 則可以更多、更豐富的中介資料來做為資料移動的依據。

但不論是 ILM/DLM 或是 AA,「通常」必須要具備使用者/應用的透通性,也就是資料的移動是由軟體自動處理,不需要人員的介入,終端使用者/應用仍然會在資料的原始位置「看到」它們,即使它們已經從原始的資料位置被移動至其它更低層級的儲存。反向地,當終端使用者者/應用需要讀取某個已經被移動過的資料時,軟體會自動地將資料從不管是哪個層級給抓回來,或許會有一些延遲,但不會影響應用的執行。

當年筆者在介紹 ILM/DLM 時曾舉過一個極端的例子,「用人工來檢視並搬移資料算不算是 ILM/DLM?」從架構來看,即使是用人力來做,也可以算是符合 ILM/DLM 的概念,就像早期因為磁碟儲存非常昂貴,因此線上只會放今年的資料,一年以前的資料都會被(用人工)移動到磁帶上。只是這樣的方式並不能算是「歸檔」,而當資料量大時這種方法也會變得不可行。

未完,待續⋯⋯

堅持也需要一些鼓勵,如果您願意支持我們,請點選以下的贊助連結