精選

[主筆漫談] 專屬型微處理器的復興

電腦的世界自始至終都是圍繞在軟體與硬體的協作之上,單純的硬體或是單純的軟體,是無法完成任何事情的。如果從這個角度看,所謂的軟體定義抑或是硬體定義,只不過也就是「為賦新詞強說愁」罷了! 回到本文主題的微處理器身上。早年,也就是從所謂的「電腦」(計算機)剛被發明出來,一直到筆者唸...

2010/10/21

[企業儲存觀察室] 保存數位資料一百年

最近在加州矽谷舉行的 SNIA (Storage Networking Industry Association) 儲存開發者會議上,出現一個很有趣的議題,如何「長期」保存數位資料?

這裡的長期指的不是 10 年、20 年,而是指更長的時間,例如 100 年!這個問題的有趣之處是在於,數百年前的典藉,如莎士比亞的小說,或是司馬遷的史記等,容或其中有些語言用法與現代不同,但只要文字依然流通,而且只要不再出現像秦始皇如此大規模的焚書行為,或是一把無名天火燒掉全世界的圖書館,我們基本上可以相信就算再過幾個世紀(如果人類還存在的話),這些古文書籍仍然會流傳下去。

圖片來源:europarl.europa.eu

但是在上個世紀末開始大量產生的數位化資料呢?要在長達幾世紀的時間中,保存這些數位化資料,以目前的技術來看,好像就沒有這麼樣樂觀了!

但根據 SNIA 的調查顯示,有超過 68% 的組織需要保存資料 100 年,或是更久。

數位資料其實沒有我們想像的那麼容易保存的,有幾個主要的問題。

儲存媒體/硬體的問題:
還記得 5.25 英吋的磁片嗎?如果你現在有一份資料還存放在這種舊磁片上,首先得考慮還能不能找到堪用的 5.25 英吋磁碟機來使用?
其次就是這張磁片上的磁化顆粒有沒有因為時間的關係而衰減?同樣的問題也會發生在光碟和磁帶儲存媒體上,以 LTO 磁帶技術為例,每一代的 LTO 規格只能夠讀取前兩代的磁帶。

硬碟也許好一點,但硬碟裡的磁盤同樣有磁化衰減的問題,硬碟本身也有平均失效時間 (Mean Time Between Failure, MTBF),我們無法寄望資料可以永久的存放在某一顆硬碟上,快閃記憶體有祙除限制的問題。
延伸閱讀:「關於固態碟的可靠度

軟體/格式的問題:
這比前一個問題對長期資料保存是更大的挑戰!
一個軟體可能會支援不同的檔案格式,每一種檔案格式可能會有不同的版本規範,每一套軟體在新舊版本之間,必然的會在不同檔案格式或版本規範間做取捨,這是一個龐大的支援矩陣 (Suppor Matrix),一個不小心就會出現空有檔案卻沒有軟體可以讀取的窘況。
豐富文件格式 rtf (Rich Text Format) 也許是一個解決方案,但它只適用於一般文件檔,對於影像繪圖等資料就不適用了。另外如果必須使用特定裝備才能讀取特定格式的資料,那就更是一個大問題。

內碼問題:
這是在使用雙位元 (Double-bytes) 環境會碰到的問題,像國內的中文環境早期多是使用 big-5 碼,現在一般非視窗環境會使用通用碼,雖然在讀取上沒有多大的問題,但沒有統一的中文內碼環境對資料的長期保存終究不是好事,幾年前某些老舊的環境還是使用王安內碼呢,這種內碼大概快沒人知道了!

內容關聯性或檔案描述資料遺失:
同樣一個類型的文件會因為內容而不同的重要性,現代化新的檔案格式都有文件內容描述或檔案關聯性的欄位,但有多少人會詳細而正確的記錄這些資料?而且這些描述能否不開啟檔案就可以顯示,也是另外一個問題。
延伸閱讀:「物件儲存可能的應用場景

於是一個通用檔案格式,自我內容資訊保存格式 (Self-contained Information Retention Format, SIRF) 開始被提出與討論,以解決前述長期保存數位資料的問題,與物件儲存 (Object Storage) 類似的概念,SIRF 把被保存的數位資料視為一個物件,檔案格式本身會記錄與資料物件相關聯的指引內容,並且維護這些記錄的一致性;與 SIRF 相容的應用軟體可以讀取並且解譯物件,而使得物件的轉移更容易。

現階段 SIRF 不會被大量使用,因為這牽涉到到許多現存的檔案格式間轉換與相容的問題,它也許會在某些特定領域,如法律文件上使用;短期內它不會影響或是改變我們現有保存或管理資料的方法,但做為一個企業資料管理(決策)者,應該要深思是如何確保資料可以長期被保存,與被使用這個議題。