有試過Openfind的solution嗎?
http://www.openfind.com/taiwan/products/enterprise_messaging/mailbase.htm
他們是從search出身的, 應該可以協助你解決此一問題.
要試免費的, 可以試試Apache Lucene, 但量太大時效能可能會是個問題,
你可以看看下列網址的Benchmark, source file 87.3G, 建index要2.5天
http://lucene.apache.org/java/2_4_1/benchmarks.html
可以找找openfind是否提供試用, 並問問行情, 合則用(省下自己測試的人工成本), 不合時, 也可以瞭解業界處理這項工作的行情, 一旦自己就可以解決時, 也可以向老闆說,自己幫公司省下多少錢.
哈, 那是好久好久以前的測試了, 看看用的還是老古董的Luene 1.2和老古董的java 1.3.1, 2008年年初, Luene 在 2.3版之後效能大躍進(有使用者測約470%快), linyt想知道有什麼免費的軟體, 所以我回答囉. 但是, 事實會說話, 請看看http://wiki.apache.org/lucene-java/PoweredBy的用戶. Lucene的最大好處是彈性與解決真實問題的能力. 更可以分散式處理與網格運算來處理大的資料量.
不論是商用或開源, 對於處理大量資料, 還是必須做coding, 沒有拿來就可以用的, 關鍵是成本效益與安全.
[Luene 在 2.3版之後效能大躍進], 這個消息很不錯, 因為以前有專案使用Luene, 因為效能問題吃了很大的苦頭...
openfind可能是個選擇, 10TB很大, Email用戶數應該不少, 不會便宜的, 如果要使用免費軟體, Apache Lucene是強大的全文檢索系統, 有Java技術背景的可以試一試. 但是, 你的10TB Mail是放在同一台Exchange主機嗎?
bizpro大大:
是notes 的mail server
不過資料是有匯出成eml檔~~變成像file的型態
既然是eml的格式, 有多少檔案呢? 在一個目錄下, 不宜存在太多數目的檔案的, 會嚴重影響效能的.
而用lucene可用其他的語言, 也支援中文索引, 另外, 搜尋引擎的作法不見得可以合用, 是不是除了全文檢索還有考慮其他用途? 基本上, 不管你用哪種方法, 必然會有客製化的需求, coding是難免的吧.
Apache有一個solr的專案, 是基於Lucene的.
Apache Lucene量太大時效能可能會是個問題,
你可以看看下列網址的Benchmark, source file 87.3G, 建index要2.5天
http://lucene.apache.org/java/2_4_1/benchmarks.html
哈, 那是好久好久以前的測試了, 看看用的還是老古董的Luene 1.2和老古董的java 1.3.1, 2008年年初, Luene 在 2.3版之後效能大躍進(有使用者測約470%快), linyt想知道有什麼免費的軟體, 所以我回答囉. 但是, 事實會說話, 請看看http://wiki.apache.org/lucene-java/PoweredBy的用戶. Lucene的最大好處是彈性與解決真實問題的能力. 更可以分散式處理與網格運算來處理大的資料量.
不論是商用或開源, 對於處理大量資料, 還是必須做coding, 沒有拿來就可以用的, 關鍵是成本效益與安全.
[Luene 在 2.3版之後效能大躍進], 這個消息很不錯, 因為以前有專案使用Luene, 因為效能問題吃了很大的苦頭...
這麼大的檔案,要靠搜尋引擎技術才能處理。
市面上除了OpenFind外,還有綠色運算的方案可參考。
http://www.green-computing.com/official/
綠色運算的主要成員就是創辦OpenFind的吳昇老師,
吳老師也是當年GAIS的Leader,所以技術是不用懷疑的。
剛有版友有提到Apache Lucene當然也是個不錯的解法,
但有三點可能較需要注意:
Outlook ? Outlook Express ? Windows Mail ? Windows Live Mail ? ...
把郵件照年 or 年月 分類
或把郵件照 性質 分類 ( 自己去決定性質, 例如某專案 )
可參考 SPlunk 雖然是要付費,但好像在一定的累積容量(500MB)內分析是免費,若超過在重建系統即可,試看看
<a href=""></a>http://www.systex.com.tw/systex2/home/banner/EDM_2008/se_epaper/0809/se_epaper_080902_2.htm<a href=""></a>
你要不要試試Google Desktop,它有個人版與企業版兩個版本;
那麼大量的資料要建索引也是需要不少時間就是了。
既然是公司內部的資料要備份存檔,可能要考慮完整的儲存資訊生命週期,以及資訊安全的權限控管喔,而且經年累月下來檔案只會不斷增加,做長遠的規劃會比較好唷 @.@
如前幾位大大所述,小的也認為用「搜尋引擎技術」來處理龐大的資料源會比較有效率,索引檔被灌爆應該是該產品沒有做到巨量的索引技術。不然用一般DB,10TB光備份就要花上一個月,日後要進行某一封郵件調閱可能更要會花上數個月。
一般企業軟體都有提供試用,您要不要直接問廠商看看,試用滿意再娶進門 XD,關於二樓大大所提到的 Openfind,他們網站有說,想試用可以跟他們聯絡耶 Openfind (右邊框框)
個人用過 Lucene ,還滿好用的,不過沒有讓他吃過這麼多資料....
感覺會等到天荒地老 XDDDDDD
我的思考立場是,在沒有相關資源 (預算、採購系統) 幫忙下,您可以做哪些事情。
建議您應該要先做的是"分析" 我想 10TB 未必是全然要歸檔與查詢的資料。先確認要歸檔哪些帳號、或是只要歸檔那些信件,其他部份就不需要備份,不然也浪費空間。
其次是使用率,如果只是備而不查的資料,我想您就放在硬碟裡或歸檔在磁帶就算了,不用花您的時間跟成本去想解決方案。
我想您的資料,依此模式應該會區分成三塊 1.經常要查詢的(也許是1~2個月) 2.偶爾查一下 (也許是 6~12個月) 3.備而不查。
所以 如果僅是要針對"1.經常要查詢的" 1~2個月的資料建立索引跟查一查,我想即便是微軟,應該也是OK,只是會有檢索時效性與正確性的問題而已。2,3 就慢慢建索引跟慢慢查吧。
最後如果您是隨時都要查這 2 年內的資料,我想這個等級是 Large-Scale 進議您還是找專業搜尋引擎幫忙較佳,一般資料庫軟體我想就免了。 (以上參考)