精選

[企業儲存觀察室] 持續型記憶體與企業儲存

前些時候有讀者問我關於持續型記憶體 (Persistent Memory, PM) 的事,因為筆者之前還沒有特別去研究這項議題,所以這次就搜集整理了一些資料整理出來分享,算是現學現賣! 儲存與成本間的關係取決於存取的效能;效能越快成本越高,成本越高容量就會越小,離運算元(處理...

2019/07/22

[企業儲存觀察室] 企業與雲端的未來在大數據分析(下)

前文接「企業與雲端的未來在大數據分析(上)

結構化資料儲存在 RDMBS 中,因此通常會使用 SAN,有些也會使用 NAS,不論是 SAN 或 NAS,都是傳統的儲存型式。在此之前,許多企業會把非結構化資料存放在 NAS 上,一個大容量的儲存空間裡;在大數據分析興起初期,也有許多企業為了方便資料分析作業,就把非結構化資料存放在 Hadoop 裡。然而,最適合存放非結構化資料的理想儲存空間,其實是物件儲存 (Object Storage)。


因為物件儲存具備 metadata 的特性,可以使非結化資料更易於清理與分析。另外,可以橫向擴展的特性,也讓量體極大的非結構化資料在儲存上,更沒有限制。
稍後我們會提到的大數據分析向雲的發展,物件儲存通常也都會內建連結雲端儲存的能力,使物件儲存也可以面向雲端。
延伸閱讀:「物件儲存是什麼?」「物件儲存可能用應用場景

非結構化資料事實上是與結構化資料互補的,它擁有可能連企業本身都不知道的價值。
最新的發展是,企業會同時運用 SQL 和 NoSQL 技術,將 RDBMS 中的資料轉換為 NoSQL 的資料格式,在此使用像 Elastic Search 這樣的技術對其進行分析,從而提供一個簡單的方式來存取所有資料。
更進一步就是以建立在機器學習之上的工具,來感知資料模式,對資料進行分類,並且從非結構化資料中挖掘洞察以獲得商業智慧。如果需要的話,當然也可以往人工智慧邁進。通過這種方式,結合、整理和搜尋結構化資料和非結構化資料,讓企業可以在一個統一的分析平台上,存取任何類型的資料,協助企業更快速、更聰明的做出更好的商業決策。

因此,對大部份的企業來說,(通常)無法一步到位做到人工智慧,但可以先把資料、尤其是非結構化資料,用物件儲存保留下來。You may not be able to AI first, but you can have data first. 資料湖-->大數據分析-->人工智慧這樣的一個概念。不過筆者也要特別指出,資料本身就「存在」價值,但不表示把資料存下來價值就會出現。
資料必須經過處理、分析及開發,才會成為產品,這產品可能是一份分析報告、一個決策建議或是一個可以改善流程的機器學習的模型。如果資料沒有經過處理、萃取與分析,本身的價值是尚未被開發與決定的。
就和化石一樣,必須要經過挖掘與清理,價值才會出現。相同的資料在不同的應用場景或產業,其價值也許會不同,端看這些資料被運用的方式,當然,也有可能最後發現誤會一場,價值沒有想像中的大。

大數據分析的下一步在雲端,直白的說就是儲存在雲上、那些數以 petabytes 起跳的資料。像是在去年,Twitter 就宣佈他們要把超過 300 petabytes 的資料,移到 Google Cloud 上,就是為了在 Google Cloud 裡分析那些「巨量」的資料,現在即便是新創的公司,也會在雲端處理上 petabytes 的資料。這個轉向對大數據很關鍵,想想,沒有多少企業傳統的資料中心可以輕易的放進 300 petabytes 的資料,但現代化的雲端平台使得巨量資料的儲存和存取成為家常便飯。
不過,真正的挑戰並不是要如何在雲裡儲存這麼大量的資料,而是要如何可以容易、安全和有效的從這麼大規模的資料中獲得洞察。
因此雲的未來在於如何協助企業,從其龐大的原始資料儲存庫中萃取出有意義的洞察。

像 Google 這樣的大型雲平台供應商當然理解這樣的挑戰,BigQuery 分析平台就是他們應對的答案。據稱 BigQuery 可以協助 Twitter 在 16.5 小時內掃描 300 petabytes 資料的每一個位元,而且只需要用 SQL 指令就好。這樣的發展確實是具有變革性,因為它可使企業能夠更專注於資料的問題,而不是花時間去建構 peta 級資料庫的設計和計算工作流程。雲端的未來在大數據分析、那些 peta 級的大數據分析。相信其它的大型雲平台供應商,也會發展出類似的能力。
延伸閱讀:「大資料有多大?(上)」「大資料有多大?(下)

我們談了大數據分析、結構化與非結構化資料,談了在雲端 peta 級的大數據分析。
企業的未來在融合結構化資料與非結構化資料的大數據分析,雲的未來在 peta 級的大數據分析。
大數據生態系的巨大進展可以釋放潛藏在資料裡、令人難以置信的洞察力量,協助企業實現更好的決策與更多的業務。