chiounan 分享有關 檔案系統的設計與效能 的議題,
最近瀏覽到一篇 One Billion Dollars! Wait… I Mean One Billion Files!!! (十億元,不,我意思是十億個檔案)
剛好是提到有關多檔案的情況下,
作業系統所會面臨到的儲存問題。
這篇文章主要測試,
十億個檔案,放在單一的檔案系統裡,
想了解在Linux中碰到這龐大檔案時所會碰到的問題及議題。
海量資料的產生
MRI(磁共振顯像)單一的掃描一次就會產生2萬個檔案,
九個月下來,從單一台MRI就產生了二千三百萬個檔案。
就個人而言,常有人大量地隨手拍照,
上傳到網站或存在電腦裡。
就該作者所知道的例子,
其友人的女兒才大一,
就已照了15000張照片,
如果有一家有四人,
估算每人大概一年會產生5000-10000張照片,
另外又會把存一堆像電子郵件、game、文章、音樂檔、
或任何形式的資料存在電腦或NAS儲存系統中,
一個家庭就很輕易在一年裡就產生十億個檔案的情形。
大容量儲存體也易建置
目前價格還可接受的高容量硬碟是2TB,
3TB也應很快量產而普遍,
如果買2-10個2TB的硬碟,
也可串成2-20TB的大容量供家庭、個人使用。
在這海量的檔案數及這大儲存體的環境下,
會有這幾個問題:
如何搜尋檔案?
如何確認檔案是沒問題?
(有時會複製幾個備份,所以所需空間要加倍)
如何把檔案從不同的機器像手機、筆電、桌上型電腦,與儲存設備互傳?
如何備份這些資料?
可能更根本的問題是,
現有的這些儲存設備,
在面對這樣的海量資料還能正常地運作嗎?