精選文章

[新聞|產業] 大型企業儲存廠商面臨市場寒冬

大部份的儲存系統大型製造商在將要過去的 2016 年都不太好過;不過,這究竟只是另一個寒冬,還是根本就是冰河期的開始?春天還會不會來呢?在即將步入 2017 年的這個時候,這些儲存廠商的心裡只怕是五味雜陳吧! 根據最新的 IDC 全球企業儲存系統追蹤季報 (IDC World...

2013年11月4日

[企業儲存觀察室] 大資料有多大?(上)

最近碰到一些朋友、客戶、以及合作夥伴都在問關於「巨量資料」(Big Data,對岸則稱之為海量資料)的問題,其中一個原因當然是來自於各種(除了電視以外的)媒體報導,以及廠商們的宣傳,彷彿明天這個世界就要被非常大量的數位資料給淹沒了一樣;另一個原因則來自於我的專業領域,巨量資料一定會需要巨量儲存,而巨量資料時代對企業資料儲存產業會有哪些影響?最近在一些客戶端聽到巨量資料時,好像一定會跟另一個詞彙「Hadoop」連在一起,彷彿 Big Data 就等於 Hadoop,是這樣嗎?

最近剛好在一份商業雜誌上也讀到關於巨量資料的一些數據,於是就去找了一下這些數據的資料來源,原來是來自於 2011 年 6 月份麥肯錫全球研究院 (MGI, McKinsey Global Institute) 的一份研究報告「Big Data: The next frontier for innovation, competition, and productivity」,一份有 156 頁的(英文)報告。說實話,我並沒有把它全部讀完,只有快速的流灠過然後挑選出其中一些我比較有興趣的部份來分享給大家;有興趣的讀者可以自行去下載完整的報告來參考,如果發現我有理解錯誤的地方,也歡迎提出討論。

首先引起我注意的是報告中引用來自 IDC 的統計資料,2010 年全球各區域新產生的資料量如下圖:
圖片來源:McKinsey Global Institute

因此 2010 年當年全球新產生的資料量約為 6,750 PB,而其中北美與歐洲合計為 5,500 PB,佔全球新生資料量的八成以上;除了歐美以外的所有地區加總資料量,約只佔全球新生資料的二成。因為該資料為 2010 年的數據,即便我們把時間與新興市場等因素算進去,合理的推估值應該也不會超過三成!因此,來自巨量資料的商機~應該最多就是這種配置比例。

相較起全球的市場來說,台灣的市場規模與資料量本來就小,其實沒有什麼好訝異的。不過,「大量」(Volume) 只是巨量資料其中一個特徵,不是那麼「大」的資料量並不意味著就沒有巨量資料的需求。「多元」(Variety) 與「快速」(Velocity) 是巨量資料另外二個特徵,而就我的觀察,國內大部份目前在談巨量資料的組織與企業,並沒有意識到另外這兩個很重要的特徵。也因為這樣,使得目前在談論巨量資料產業有著很明顯的侷限性;例如電信、網路、金融、以及極少數的零售等產業,至於公部門,恕我直言,個人認為大多為「為巨量資料而巨量資料」,台灣的公部門幾乎沒有多少人能體認巨量資料的實際意義,與未來可能因巨量資料而產生的改變。(雲端環境其實也是相同的狀況。)

然而 MGI 的報告中則指出有巨量資料潛在性的產業其實是很廣大的,幾乎橫跨各行各業;MGI 巨量資料最具產業影響力的主要集中在五大領域:美國的醫療健保、歐盟的公共行政、美國的零售業、全球的製造業、以及全球的個人定位資料,這五大領域約佔 2010 年全球 GDP 的 40%。

在巨量資料相關的技術上,除了 Hadoop 外,其它還有像是 Big Table、Cassandra、Data mart、Dynamo、Google File System、HBase、Mashup、R 等技術。因為這些技術我真的不懂,就不多談了,但可以確定的是巨量資料絕對不等同於 Hadoop。不過從儲存的架構上來看,除非是像 Google 或 Facebook 等採用以 Google File System(或類似的)架構,將資料直接儲存於整個大架構中,然後再從中進行資料分析與擷取的作業,否則,我認為大部份的組織與企業,必須要考量原始資料的儲存平台,它並不一定會在 Hadoop 平台之內;而且重點是現在就要開始進行巨量資料儲存,而不是等到幾年後 Hadoop 平台建好後才開始儲存巨量資料。

未來或許將會出現統合的巨量資料儲存平台,以一個儲存平台提供所有組織或企業資料的儲存需求,不過,到目前為止,這樣的儲存平台在技術上的挑戰仍然很大。

本文下接 大資料有多大?(下)