精選

[企業儲存觀察室] 傳統硬體儲存供應商的市場混戰

大約 15 年前筆者開始關注並且觀察全球的企業資料儲存市場。一直以來,全球市佔前五大的儲存系統供應商中,包括了(曾經是)全球前三大的伺服器供應商:Dell、HPE (HP) 與 IBM;再加上(純)儲存系統供應商:EMC、HDS (Hitachi Vantara) 與 NetAp...

2021/07/07

[企業儲存觀察室] 初談儲存管理與 AIOps

近幾年越來越多人以及 IT 供應商都在談論著 AIOps。
AIOps 是 Gartner 在 2016 提出的一個概念,最初稱為演算法 IT 運營 (Algorithmic IT Operations) ,後來改稱為 IT 運營的人工智慧 (Artificial Intelligent IT Operations)。
Gartner 對 AIOps 的官方定義是: AIOps 平台利用大數據、機器學習和其它先進的分析技術,經由主動式、個性化與動態的洞察力,直接或間接地增強 IT 運營(監控、自動和服務)的能力。AIOps 平台可以同時支援使用多個資料源、資料蒐集方法、即時與深度的分析技術和資料視覺化。

圖片來源:Gartner

用一個比較容易理解、但不完全相同的對比,AIOps 可以視為 IT 運營的自駕車技術。當然啦,在達到 Level 5 的全自駕技術前,還有好幾個等級要先達成。

學理一點來看,AIOps 以自動化、效能管理與服務管理三個面相構成一個框架,用來提高 IT 基礎架構管理人員的能力。我們可以視它為一個多層次的組合:
  • 資料源-除了進行自動化和管理任務運行所需要的配置資訊外,還要包括來自各個(軟硬體)系統運行時所有(遠端)監控的數據。
  • 即時處理-這意味著要即時收集和處理數據。
  • 規則/模型-使用一定的規則和模型來分析資料;這包括、但不限定由供應商自行發展的演算法/模型,將監控數據轉化為異常檢測和故障診斷的工具。
  • 專業知識-這包括特定(專業)的知識來瞭解在地的使用行為和需求。
  • 自動化-使用 API 和 CLI 來進行如精簡配置或將面向使用者的工作停止之類的任務,也包括效能管理,例如在可用的基礎架構資源間重新平衡工作負載等。
跨越這些層的是使用機器學習來觀察和偵測監控數據中的趨勢和特異情況,進而提出相應的動作並執行,如果沒有人工智慧與機器學習,這些工作對人類來說既不可能也不切實際。

筆者想起約莫廿多年前,在那個「網路即電腦 (The Network is The Computer)」的年代,我們是這樣舉例的:
當應用程式無法寫入資料時,系統發現這是因為資料庫空間己經完全耗盡而引起的,於是資料庫系統將會通知儲存系統尋找可用的儲存資源,並自動將其進行配置、然後提供資料庫使用,應用程式便可重新寫入資料。

這樣一個完全自動化的儲存系統容量擴充任務,即便是在廿多年後的今天,仍舊是一個雖不算遠、但還未能實現的夢想。就技術層面來看,這樣一個(簡單的)任務,事實上牽涉到的不僅僅是不同(軟硬體)系統間的溝通與整合,還有多個不同領域、基於專業與經驗的判斷行為。但在那個遙遠的年代,我們其實並不瞭解這是一個遠遠超過當時技術能力、幾乎不可企及的想法,直到今日。有人曾說過,先知通常是孤獨、領先時代的;不過這是題外話了。

將 AIOps 之類的工具引入到儲存 (IT) 管理中,理由再明顯不過了。隨著全球所產生的資料量繼續呈現指數級增長,以前會被丟棄或根本沒有被產生出來的資料量,今天正被視為可能具有某些未來的價值。業務流程也在推動對資料儲存容量更大的需求,而這只是 IT 組織所面臨的挑戰之一。IT 組織通常希望在問題發生之前,預知、識別並且解決問題,而不是坐等嚴重故障發生,這是消極的一面。
就積極面來看,隨著不斷變動的業務與應用需求,儲存資源的建立、使用與釋放可以更動態、隨需與自動化,這不是任何一位儲存管理者(自然人)可以做到的。

因為是「初談」,學理暫時就談到這裡,再找時間來寫後續的內容,我們先回頭來看看市場上的狀況。首先,一定要有一個雲端的儲存管理平台,因為你必須要有夠大的監控數據庫才能發展出人工智慧來輔助儲存管理。將發展出來的人工智慧,下放到本地的儲存管理軟體當然可行,只是能力就會有所限制,也不夠即時。在需要即時分析運算的時候,本地的管理平台未必有足夠的運算能量來執行。所以,AIOps 的儲存管理要有一個雲端平台。目前市場上提供雲端的 AI 儲存管理平台主要的儲存供應商包括:Dell EMC 的 CloudIQ、HPE 的 InfoSight(來自併購的 Nimble Storage)、IBM 的 Spectrum Control Storage Insights、NetApp 的 Active IQ(來自併購的 SolidFire)與 Pure Storage 的 Pure 1,以上如有遺漏還請讀者指出。

目前這些雲端 AI 儲存管理平台主要提供:集中管理控制、健康診斷與報修服務以及儲存資源分析與預測等功能,不同供應商在功能上的廣度與深度自有不同,但筆者認為這都只是 AIOps 的初級功能,或許可以算是 Level 1 的自駕能力,儘管離我們先前所提到的例子還很遠,但畢竟是第一步!長遠來看,我們可以相信目前的這些產品在自動化、效能管理與服務管理都可以做到一定的深度,尤其是在自家設備上。
但在最終的目標上,跨異質平台的整合與 AI 的自動化究竟能做到什麼樣的程度,路途仍然遙遠!因為這牽涉到更多 IT 運營的經驗、產業相關知識,以及更重要的 AI 專家與發展。
以上這些都超過一家供應商所能獨立提供的範圍,也是未來 AIOps 發展上極大的挑戰!

堅持也需要一些鼓勵,如果您願意支持我們,請點選以下的贊助連結