精選

[軟體定義儲存的故事] HCI 和 SDS 的曖昧故事

在 [企業儲存觀察室] HCI 蹭 SDS 搞曖昧? ⼀⽂當中,作者提到 HCI 超融合與 SDS 軟體定義儲存做為兩種不同、沒什麼相關的技術,不應混為⼀談。 ⾝為⼀個在軟體定義儲存打滾多年的產品經理,忍不住想跳出來說幾句話:現在的 HCI 會有看不盡的精彩,還有說不清的混亂,也...

2020/06/23

[企業儲存觀察室] COVID-19 對企業儲存的啟示

從經濟的角度看,COVID-19 新冠病毒疫情不僅徹底改變全球化的進程,在許多層面上它也顛覆了過去幾十年來的人們所追求的目標。
在工業生產上,「豐田式生產」(Toyota Product System, TPS) 以最低限度庫存的即時生產方式,來追求成本的降低與生產效率。但當上游工廠因為封城停工時,下游工廠因為原料的低庫存,即使開工也一樣無法生產。
在企業經營上,許多經營者追求以較高度的財務槓桿操作,企圖發揮出每一分錢最大價值。但當封城無法營業或是民眾減少消費時,企業的金流馬上就出現問題。


在個人的生活上,有許多人因為各種的原因,基本上是以月光族的方式來生活。但當因為疫情而減少或沒有收入時,就連維持基本的生活支出也都成了問題。

整體來看,從企業到個人,不管從哪個角度,這些都是系統性的 Resilence 不足。Resilence 這個字在大部份的字典裡會翻成彈性、恢復力或適應力,但筆者認為這個字還含有中文裡「靭性」的意思,也就是可以承受最糟情況的能力。以前面的例子來看,就是有多少的備料?有多少的自由資金?沒有收入可以維持多久的生活?
在疫情之前,許多企業基本上的假設是,原料供應或營運收入不會是零的狀況,因此儘可能的往天秤的一邊走。在經過這次疫情之後(如果撐得過的話),相信大部份的企業經營者會往天秤中間移動,來強化整個企業組織的靭性。

長久以來,國內的企業對於 IT 或儲存設備,一直的做法就是搾出設備的每一分效能,能ㄍㄧㄥ到八成就決對不會只用到 79%,大致上就是鄉民們所說的「慣老闆」會做的事。說好聽的叫提高營運效率,基上就是沒有備轉容量這件事,但我們大部份的人好像對此已經習以為常了?
但事實是,如果我們會以「現金存量」、「正現金流量」來評估一家公司的財務健康度,那為什麼沒有人覺得資訊系統也應該要有相同的標準,必須要有「足夠的」、「安全的」備轉容量呢?

前公司一位長年在亞太區支援的同事跟我說,公司某個型號的高階儲存,在韓國某大財團裡會讓系統的使用率維持在 50% 之下,一旦超過 50% 就會採購新的系統。但同樣的機器在台灣的某大銀行,「新」系統的使用率大概也是 50%,但隨著時間過去,使用率逐步上漲,最後長年就維持在 70~80%,能撐就撐,能夠不買新機器就不要買新機。50% 和 75% 有沒有差別?從效率和成本上看,75% 當然比 50% 好。這是太平盛世、也就是疫情發生前的狀況。

但當疫情發生後,或是為了某些原因,必須儘快地做系統升級時,有足夠的備轉容量,也就是可以在無收入的狀況下維持一段時間正常的生活,就會是很重要、很重要、很重要的事。
系統(韌體)的升級是需要運算與儲存資源的,如果想要 on-the-air (OTA) 或是不中斷服務的升級,所需要的資源是更多的;而現有的系統資源是否足夠進行線上升級,它通常是簡單的算術、而不是高深的技術問題。
例如在一部雙控制器的儲存系統上,控制器 A 的韌體升級意味著必須將原本的負載先移轉出去,由另一個控制器 B 來接手服務。但如果控制器 B 原本的負載就已經達到 80%,也就是說它只剩下 20% 的能力,可以接手原本控制器 A 上的負載。所以如果原本在控制器 A 的負載超過 20%,不中斷服務的線上升級就是不可能的任務。

更高階的儲存系統狀況會更複雜,因為它不是只控制器/單元的問題而已,還有其它前端、後端、交換器端、快取記憶體等不同的硬體組件要考慮。系統的設計通常無法在一開始就知道現有資源是否足夠,最經常碰到的情形是在花了好長一段時間後,系統才回報升級無法完成。

如同筆者前文所提的,在一個正常、好的規劃下,或是初始規劃時,負責任的規劃者並不會讓系統的負載,到達無法進行線上韌體升級的狀況。從另一個角度來說,具備足夠的備轉容量,也是確保系統在某些硬體組件(如控制器)故障時,可以在單控制器的狀況下繼續提供服務,這也是為什麼需要冗餘組件的原因,這是簡單的本地備援概念之一。但現實是,就是會有許多企業用戶,因為各種原因而無法擁有足夠的備轉容量。

當第一波的疫情過去,企業在重新盤點所擁有的資源時,是不是也應該要順便檢討一下 IT 的資源,是否具備足夠的靭性來因應各種不同的故障?
在太平盛世、沒有新冠疫情之前的生活,或許 75% 是我們追求的目標。但現在,經過疫情之後,我們應該考慮維持 50% 的生活。
當企業在大談產業升級、數位轉型時,有些明明就不正確、但卻習以為常的觀念,是否也應當要升級一下?