精選

[企業儲存觀察室] 2019 再看 DELL 的轉型豪賭?

全球排名第一、約 20 % 的伺服器市佔率。 全球排名第一、超過 30% 的外接式企業儲存系統市佔率 ,超過第 2,3,4 名加總的市佔率。 全球排名第一、近 40% 的超融合基礎架構市佔率 ,超過第 2,3 名加總的市佔率。 全球排名第一、超過 50% 的備份設備與備份軟...

2019/07/01

[企業儲存觀察室] 大數據的下一個戰場-資料視覺化(上)

今天要談的內容跟企業儲存沒那麼大的關係,老實說筆者也沒有那麼地熟稔,不過卻跟企業資料管理,有很大的連結。也因為(跟企業儲存比起來)不是那麼的熟悉,所以勢必要花點時間,找找資料再重新整理,並且確認所有的資訊是正確的。這也是這份工作另一個有趣的地方,可以重新學習以前不是那麼熟悉的東西,或是把某些以前沒弄懂的環節搞清楚。

圖片來源:Hitachi Vantara

資料視覺化工具,是大數據分析產業生態系裡的一部份,也是大數據分析中最後的一哩路,因為它就是用來將資料分析結果呈現給終端使用者。
前一陣子兩條雲端服務業界的大新聞:
Google 26 億美元併分析軟體企業 Looker,創公司歷來第 4 大併購案
CMR 與視覺化分析的強大組合!Salesforce 以 157 億美元收購 Tableau

這兩椿併購案因為時間太接近,而且兩家被併購的標的,一為新創一為上市公司,產品(服務)內容看起來相近,一時之間倒也引起不少注意。在進入主題之前,我們要先來惡補一下相關的背景知識:大數據分析產業生態,因為我相信很多讀者其實並不熟悉這個領域。

資訊系入門課程「計算機概論 BCC」裡面談到,電腦(計算機)的功能就是「輸入資料」--》「處理資料」--》「輸出資料」,大數據分析產業生態與上述的三步曲完全一模一樣。

資料來源 (Data Source)
首先,就是輸入的資料,一般稱為資料來源;資料來源通常有兩種:「結構化資料」與「非結構化資料」。結構化資料來自各種關聯式資料庫系統 (RDBMS),像 CRM、ERP 等,或是資料倉儲系統。結構化資料以外的,人類產生的或是機器產生的,大概都可以歸類為非結構化資料,包括文字檔、電子郵件、社交媒體內容等。原始的非結構化資料是無法直接做分析的,大量的非結構、無組織的資料,可以運用像 NoSQL 這樣的非關聯式資料庫中進行組合和處理。

ETL
不管是結構化或非結構化資料,在進入分析前都必須經過萃取、轉置、載入 (Extract-Transform-Load, ETL) 的預處理步驟,將原始資料清洗/混合成可以進行分析的資料,ETL 的流程可以用任何的程式語言去開發完成。
但當要分析的資料規模越來越大,資料來源越來越多時,維護 ETL 的程式就會變成一個極為複雜、不易管理,幾乎是企業 IT 組織無法承受的人工作業。所以有越來越多的企業採用 ETL 工具來協助,並且將來源與目的對應 (mapping),與轉換規則儲存在工具的資料貯藏庫 (repository) 中。
ETL 工具可以提供更廣泛的連接能力,連接來源與目的端,所以開發人員就不用去熟悉各種異質平台與資料結構,可以將精力放在資料轉置的開發上。

資料分析
「分析」當然就是上述三步曲中的資料處理過程,依據處理過程的複雜程度,可以使用資料分析工具,或是程式開發兩種方式,大部份的資料分析工具也都可以內嵌程式的方式來運作。複雜的資料分析或是像機器學習、人工智慧這樣的高級分析演算法,沒有程式開發是不可能完成的。像人工智慧一般用的就是 R 或 Python 語言。

資料視覺化
處理(分析)完成的資料,最後就是要如何呈現(給人看)。早期簡單、靜態的資料呈現方式就是報表,大部份的資料分析工具都會自帶報表模板或產生工具。但更進階、更複雜的資料分析結果,通常不是死板板的報表可以呈現出來的,因此需要更多的加工(程式開發)來讓它以更視覺化的方式呈現,尤其是要給(高層)決策管理者看的資料分析結果,這就是現代化的資料視覺化工具的主要市場。

我們都知道光有資料是沒有用的,有大量的資料也是沒有用的,如何將資料轉化為能產生價值的意義,或是稱之為洞察,才是最重要的。
大數據分析平台與資料視覺化工具對企業之所以重要,在於它們可以從不同的維度幫企業解決資料洞察問題:
將不同來源的資料整合在一起。
讓資料呈現更豐富的訊息。
使訊息更直觀的呈現(讓人看得懂)。
自動化大數據分析與視覺化呈現的處理。
延伸閱讀:「關於巨量資料的現況與迷思(上)(下)

上文圖中就是在大數據分析產業生態裡,目前市場上的主要玩家。由於目前大數據分析的市場熱度,因此每一個工具/平台供應商,都會試圖朝上、下游的市場擴展。與所有產業相同的,每一個產品都會與競爭者有或多或少的重疊,當然也有各自的優勢與利基。

談完大數據分析的產業背景後,下集我們就來談這兩椿併購案與它們對產業的影響。未完,待續⋯⋯下文接「大數據的下一個戰場-資料視覺化(下)