精選文章

[新聞|產業] 大型企業儲存廠商面臨市場寒冬

大部份的儲存系統大型製造商在將要過去的 2016 年都不太好過;不過,這究竟只是另一個寒冬,還是根本就是冰河期的開始?春天還會不會來呢?在即將步入 2017 年的這個時候,這些儲存廠商的心裡只怕是五味雜陳吧! 根據最新的 IDC 全球企業儲存系統追蹤季報 (IDC World...

2011年10月18日

[企業儲存觀察室] 備份是資料保護的最後一道防線

筆者從事企業資料儲存技術顧問工作這麼多年來,始終不斷地提醒我的客戶們,無論使用哪一種先進的儲存技術,請千萬不要忘記:備份是資料保護的最後一道防線!筆者通常指的是以備份軟體把資料備到磁帶上,並且進行異地存放的作業;不過,如果我們把定義放寬一點,備份指的可以是除了線上資料外,另外一份足供回復線上服務的資料拷貝。

不論使用何種技術、方式、或媒體,這份立即可用的備份資料,在線上資料發生問題時進行工程處置時,是非常重要的一份資料!

最近在筆者工作的環境週遭發生了兩起資料丟失的事件,起因都可以歸因於人為的失誤;雖然這兩起事件最終都以圓滿的結局收場,不過其中回復的過程截然不同,而事件處理者的心境也完全迥異然,其間的差異就在於是否有進行資料備份!

資料丟失當然會造成服務的中斷,但客戶甲因為有備份資料,因此在初步判斷可能無法於短時間內線上救回資料後,立即就決定以備份的資料進行回復,雖然仍然有少許的資料差,但服務卻可以在備份資料倒回後立刻恢復,對於終端用戶衝擊的時間並不算長。

至於客戶乙就沒有那麼幸運了;因為完全沒有備份的資料,而且中斷的是企業生財的服務,救回線上資料成為唯一的、不可失敗的選項,可以想見這對客戶與現場處理人員的壓力有多大!所幸故障的原因並不是儲存設備(磁碟)上的問題,在歷經廿四小時的逐步處理後,最終也成功救回線上資料,並且恢復服務,但在回復過程,現場人員幾乎是抱著必死的決心在做事的。

所有來自知名供應商的儲存產品,都具有一定的可靠性,但無論如何,廠商們所保證的系統可靠性,不會是100%,從數字看來,它指的是系統仍有(些微)機率有可能出現「不可靠」的狀況。

資料丟失的原因來自各種不同的狀況;但在筆者的職場生涯裡,就記憶所及的,幾乎沒有任何一起的資料丟失事件,是肇因於儲存設備的系統瑕疵(bug);唯一一次因為純粹硬體故障而造成資料丟失,是在RAID 5的RAIDGroup中有兩顆硬碟機先後故障所造成的;至於其它的,則都可歸因於人為的失誤所造成!而大部份的人為失誤,則是來自於對系統的不熟悉,在不當的時間進行不當的操作,對所有技術人員來說,這是另一個應該要謹記的事情,在進行任何操作時,你必須要確認你的操作是依循原設計規範的;如果不確定,那麼請-RTFM!! (Read the Fucking Menual)

但無論原因為何,當有備份資料在手,選項就只是資料差量的多少,這是選擇題;但如果沒有備份資料,那就是○與一的選擇了,沒有任何一位資料儲存管理者願意面對這樣的是非題。

不過有趣(悲哀)的是,我們仍然會不時要面對一些使用者,完全忽視資料備份的重要性!

也不曉得是儲存系統廠商業務太厲害,還是使用者無知,竟然會完全依賴系統的可靠性來保護資料?請不要忘記,RAID 5 有可能死二顆磁碟機,RAID 6 有可能死三顆磁碟機,metadata 有可能毁掉,控制器有可能故障,人員有可能誤操作,有太多太多的原因會造成線上資料的丟失,而我們唯一可以減少資料丟失機率的依靠,就是備份!

至於備份的型式,我們就不在此討論,因為各種不同使用環境與對資料的敏感度,會產生各種不同的答案;不過重點是,千萬不要認為機器不會故障,你不會那麼倒楣,你至少要有一份足供回復的備份資料。