精選

[企業儲存觀察室] 持續型記憶體與企業儲存

前些時候有讀者問我關於持續型記憶體 (Persistent Memory, PM) 的事,因為筆者之前還沒有特別去研究這項議題,所以這次就搜集整理了一些資料整理出來分享,算是現學現賣! 儲存與成本間的關係取決於存取的效能;效能越快成本越高,成本越高容量就會越小,離運算元(處理...

2019/07/17

[企業儲存觀察室] 企業與雲端的未來在大數據分析(上)

先前我們談到資料視覺化軟體-Looker 與 Tableau 的併購時,有解析過大數據分析的產業生態系,這次我們要再往前追溯,談談大數據分析的第一步驟-資料來源,以及它們與資料分析處理間的關係。這些都可以算是大數據分析的 101,給各位讀者做參考。
延伸閱讀:「大數據分析的下一個戰場-資料視覺化(上)」「大數據分析的下一個戰場-資料視覺化(下)

圖片來源:NTNU.edu

大數據 (Big Data)、人工智慧 (Artificial Intelligence, AI) 與機器學習 (Machine Learning, ML),是現今三個與 IT 有關,而且網路聲量最高的詞彙,它們並不是同一件事,但它們之間卻有著緊密的關係。
機器學習是基於資料的演算法,不需要依賴基於規則的程式。
大數據是一種資料型態,可以提供給分析系統使用 ML 模型來「學習」(或是另一種說法,使預測的精準度更好)。
所以,機器學習可以說是人工智慧的(重要)基礎,而大數據則可以讓資料更容易地被機器的演算法學習,或是根據人類的查詢語句來搜尋。因此不論是 AI 或 ML,都必須在大數據分析的基礎上才能達成。

本文將不會談人工智慧或機器學習,因為筆者(很想學,但)不懂,我們將著重在談大數據(分析),它跟企業儲存有那麼一點點的關係。不過就在幾年之前,資料分析市場並不是現今我們看到的這樣。那時談資料分析通常指的都是(稍後我們會談到)結構化資料分析,結構化資料的分析是比較容易處理、也比較成熟的,但非結構化資料就不是這樣的。這是因為(處理器的)處理能力有限、高昂的儲存成本和系統的記憶體不足,這些都讓管理非結構化資料的工作難以進行。

但就在過去幾年間,隨著非結構化資料來源不斷地增加,企業開始發現不能再像過去一樣,忽視非結構化資料以及其中潛藏的價值。當然也由於可以用來處理非結構化資料的技術與工具的增加,企業也開始意識到分析非結構化資料會帶來好處,也就是我們經常聽到的「洞察 (Insight)」。
洞察對於獲得商業智慧、市場行銷智慧、營運智慧等,都很有價值。也帶動許多企業投資於結構化與非結構化資料的大數據分析,從更大的範圍和不同的維度來獲得更好的洞察。
有些企業會把大數據分析和「數位轉型」畫上等號,筆者認為這兩者有關,但肯定不是同一件事。

先前我們有談到過大數據分析的資料來源,有結構化資料與非結構化資料,現在我們就再深入的看看什麼是結構化資料?
顧名思義,結構化資料可以被儲存在關聯式資料 (RDBMS) 裡,預先被定義的欄位、行、和列中,是一種有組織的資料,商業試算表就是一種結構化資料。使用簡單的工具如 SQL 指令或演算法,就可以輕鬆的輸入、儲存、搜尋、處理和分析資訊。
結構化資料格式是具有剛性的,因此對資料的任何操作,只能通過指定的資料型態和欄位名稱來完成。

和結構化資料比較起來,非結構化資料則更像是沒有可識別結構的人類互動。所以非結構化資料還是具有結構,只是理解起來複雜、不夠直觀,無法輕易地被轉化成商業試算表。像是文字檔、電子郵件、社群媒體內容、音頻、視訊、圖像、PDF 檔案等,這些資料有可能是人類或是機器產生的。像 NoSQL 這樣的非關聯式資料庫,就可以被運用來處理大量無組織的非結構化資料。

結構化資料與非結構化資料的比較:
結構化資料經由預先定義的模型或結構來組織,而非結構化資料則沒有組織。
結構化資料「通常」只有文字(曾經有一陣子流行把非結構化資料的影像圖檔塞進資料庫中),但非結構化資料可以由文字、音頻、視訊、圖像和其他格式組成。
結構化資料易於搜索,但非結構化資料則不易搜索。
結構化資料完全遵循關聯式資料庫結構,但非結構化資料會駐留在非關聯式資料庫中。
相對於結構化資料,企業內的非結構化資料以 15 倍的速度成長中,這使得分析有價值的資料變得非常重要。
結構化資料是當前對企業內部資料進行分析的邏輯擴展,而內部的非結構化資料是獲得客戶洞察的基礎。

未完,待續⋯⋯下文接「企業與雲端的未來在大數據分析(下)