精選

[主筆漫談] 專屬型微處理器的復興

電腦的世界自始至終都是圍繞在軟體與硬體的協作之上,單純的硬體或是單純的軟體,是無法完成任何事情的。如果從這個角度看,所謂的軟體定義抑或是硬體定義,只不過也就是「為賦新詞強說愁」罷了! 回到本文主題的微處理器身上。早年,也就是從所謂的「電腦」(計算機)剛被發明出來,一直到筆者唸...

2010/06/28

[觀察] Dedupe(資料去重複化)到底在熱什麼?

資料去重複化 (Data Deduplication, Dedupe) 出現在企業儲存市場上約莫是在四、五年前,但有很長的一段時間,提供 dedupe 解決方案的廠商幾乎都是在慘淡經營,客戶群並不多,也沒有很漂亮的營收數字。而後隨著以磁碟為基礎的備份解決方案(如虛擬磁帶、磁碟對磁碟 D2D)日漸普及,針對備份資料進行 dedupe 以縮短備份窗口,節省遠程備份的頻寬需求等優點逐漸吸引企業客戶的注意。

但真正引爆儲存廠商爭相投入 dedupe 市場的,則是 2009 年 EMC 與 NetApp 的 Data Domain 併購爭奪戰,一時之間儲存廠商們突然發現擁有自己的 dedupe 技術彷彿成了公司生死存亡的關鍵;資源充足者自行發展或併購別人,不然,至少也要簽下 OEM 或 reseller 的合約,總之,輸人不輸陣,一定要有 dedupe 的產品可以賣才行。

於是資料去重複化的應用,從備份資料的 dedupe,到主要儲存的 dedupe,現在已經有廠商喊出 end-to-end 的 dedupe,或是 dedupe everywhere 了。

從企業客戶的角度來看,資料量不斷增加,資料保存的期限延長,又搞不清楚長年來累積的資料重要性為何,因應的方式除了增加磁碟的容量外,磁帶歸檔也是另外一個解決方式;dedupe 的出現,使儲存管理者可以在不用刪除(或移出)資料,而且也不需採購新磁碟空間的情況下,增加儲存的容量,顯然是個不錯的解決方案。

從儲存廠商的角度來看,資料量增加固然磁碟的需求也會增加,但單位成本卻也同時在下降中,dedupe 的技術複雜度,提高了儲存廠商的加值 (valule-added) 空間。

只是,在熱鬧背後,市場上對 dedupe 這項技術仍然存在不同的聲音。

從技術原理上來說,不論是對檔案、區塊、或是位元資料做去重複化,本身就是一種對原始資料的破壞,經由演算法來比對並移除資料中重複的部份,但由於雜湊碰撞等潛在的技術限制,目前只能運用多種演算法,或加入中介資料檢查等方式來儘量避免資料的誤刪。

其次,演算法意味著對運算能力的需求,增加運算過程將會降低資料的存取效能,這也是為什麼一開始 dedupe 是運用在備份資料,而且是已經備份到磁碟的資料上,就是為了避免對資料備份速度的衝擊。因此假如要對主要儲存或終端資料進行去重複化的動作,更多的運算能力必不可少,也許將來有一天我們將會看到儲存系統的運算能力(或 CPU 的速度)成為一項重要的參考規格,因為這將會關係到資料的存取速度。

最後,則是對大量的重複資料的質疑,當然不同的資料也有可能產生相同的資料區塊,但大部份的重複性資料區塊根源於它們本來就是同一份資料,如果它們是同一份資料,那是不是應該先討論為什麼需要這麼多份相同的資料拷貝?不斷的複製資料然後再進行資料去重複化,不是跟不節制飲食然後再企圖減肥一樣嗎?