iT邦幫忙

0

大量郵件需進行稽核

各位大大:
請教一個問題, 有兩年份的郵件量(約10TB), 如要進行郵件(包括內容與附檔)索引的話, 有沒有較好的辦法? 因為用微軟內建的"搜尋"功能, 光搜尋完就花掉快一個月, 另外也用過某家企業型式的搜尋引擎, 也因索引檔被灌爆, 是否需要將資料量進行切割或是其他辦法?

30
fishk
iT邦大師 1 級 ‧ 2009-04-09 14:51:54
最佳解答

有試過Openfind的solution嗎?
http://www.openfind.com/taiwan/products/enterprise\_messaging/mailbase.htm
他們是從search出身的, 應該可以協助你解決此一問題.

看更多先前的回應...收起先前的回應...
linyt iT邦研究生 1 級 ‧ 2009-04-09 15:01:32 檢舉

fishk大大:
謝謝這套會來看看有無試用版
不過這套系統公司內部是沒採購
~ㄏㄏ
想問看看有沒有其他免費軟體可以使用.

fishk iT邦大師 1 級 ‧ 2009-04-10 15:39:51 檢舉

要試免費的, 可以試試Apache Lucene, 但量太大時效能可能會是個問題,
你可以看看下列網址的Benchmark, source file 87.3G, 建index要2.5天
http://lucene.apache.org/java/2\_4\_1/benchmarks.html

可以找找openfind是否提供試用, 並問問行情, 合則用(省下自己測試的人工成本), 不合時, 也可以瞭解業界處理這項工作的行情, 一旦自己就可以解決時, 也可以向老闆說,自己幫公司省下多少錢.

bizpro iT邦大師 1 級 ‧ 2009-04-10 23:39:12 檢舉

哈, 那是好久好久以前的測試了, 看看用的還是老古董的Luene 1.2和老古董的java 1.3.1, 2008年年初, Luene 在 2.3版之後效能大躍進(有使用者測約470%快), linyt想知道有什麼免費的軟體, 所以我回答囉. 但是, 事實會說話, 請看看http://wiki.apache.org/lucene-java/PoweredBy的用戶. Lucene的最大好處是彈性與解決真實問題的能力. 更可以分散式處理與網格運算來處理大的資料量.

不論是商用或開源, 對於處理大量資料, 還是必須做coding, 沒有拿來就可以用的, 關鍵是成本效益與安全.

fishk iT邦大師 1 級 ‧ 2009-04-11 23:07:26 檢舉

[Luene 在 2.3版之後效能大躍進], 這個消息很不錯, 因為以前有專案使用Luene, 因為效能問題吃了很大的苦頭...

24
門神JanusLin
iT邦超人 1 級 ‧ 2009-04-09 11:09:16

分日期分目錄 !!

28
bizpro
iT邦大師 1 級 ‧ 2009-04-09 15:58:02

openfind可能是個選擇, 10TB很大, Email用戶數應該不少, 不會便宜的, 如果要使用免費軟體, Apache Lucene是強大的全文檢索系統, 有Java技術背景的可以試一試. 但是, 你的10TB Mail是放在同一台Exchange主機嗎?

看更多先前的回應...收起先前的回應...
linyt iT邦研究生 1 級 ‧ 2009-04-09 18:09:55 檢舉

bizpro大大:
是notes 的mail server
不過資料是有匯出成eml檔~~變成像file的型態

bizpro iT邦大師 1 級 ‧ 2009-04-09 23:55:40 檢舉

既然是eml的格式, 有多少檔案呢? 在一個目錄下, 不宜存在太多數目的檔案的, 會嚴重影響效能的.

而用lucene可用其他的語言, 也支援中文索引, 另外, 搜尋引擎的作法不見得可以合用, 是不是除了全文檢索還有考慮其他用途? 基本上, 不管你用哪種方法, 必然會有客製化的需求, coding是難免的吧.

Apache有一個solr的專案, 是基於Lucene的.

fishk iT邦大師 1 級 ‧ 2009-04-10 15:36:33 檢舉

Apache Lucene量太大時效能可能會是個問題,
你可以看看下列網址的Benchmark, source file 87.3G, 建index要2.5天
http://lucene.apache.org/java/2\_4\_1/benchmarks.html

bizpro iT邦大師 1 級 ‧ 2009-04-10 23:39:33 檢舉

哈, 那是好久好久以前的測試了, 看看用的還是老古董的Luene 1.2和老古董的java 1.3.1, 2008年年初, Luene 在 2.3版之後效能大躍進(有使用者測約470%快), linyt想知道有什麼免費的軟體, 所以我回答囉. 但是, 事實會說話, 請看看http://wiki.apache.org/lucene-java/PoweredBy的用戶. Lucene的最大好處是彈性與解決真實問題的能力. 更可以分散式處理與網格運算來處理大的資料量.

不論是商用或開源, 對於處理大量資料, 還是必須做coding, 沒有拿來就可以用的, 關鍵是成本效益與安全.

fishk iT邦大師 1 級 ‧ 2009-04-11 23:06:26 檢舉

[Luene 在 2.3版之後效能大躍進], 這個消息很不錯, 因為以前有專案使用Luene, 因為效能問題吃了很大的苦頭...

30
tonyshih
iT邦新手 5 級 ‧ 2009-04-09 16:49:17

這麼大的檔案,要靠搜尋引擎技術才能處理。
市面上除了OpenFind外,還有綠色運算的方案可參考。
http://www.green-computing.com/official/
綠色運算的主要成員就是創辦OpenFind的吳昇老師,
吳老師也是當年GAIS的Leader,所以技術是不用懷疑的。
剛有版友有提到Apache Lucene當然也是個不錯的解法,
但有三點可能較需要注意:

  1. 對於其他的搜尋引擎而言,中文的斷詞會是國外方案較力有未逮的地方。
  2. 要自行利用Lucene的API來處理mail,所以要有JAVA的知識。
  3. 對於附檔的處理,依我目前看到的資料,應該也是要另外寫code處理,對於放在壓縮檔中要遞迴解壓縮的,應該更麻煩了。
    附帶一提,看你剛說有考慮試用方案,綠色運算目前有提供試用,你可以參考看看。
28
pcboy
iT邦高手 1 級 ‧ 2009-04-10 06:59:36

Outlook ? Outlook Express ? Windows Mail ? Windows Live Mail ? ...

把郵件照年 or 年月 分類
或把郵件照 性質 分類 ( 自己去決定性質, 例如某專案 )

26
kaptech
iT邦新手 2 級 ‧ 2009-04-10 07:15:28

可以參考下列的產品

20
aikewn
iT邦新手 3 級 ‧ 2009-04-10 10:37:19

可參考 SPlunk 雖然是要付費,但好像在一定的累積容量(500MB)內分析是免費,若超過在重建系統即可,試看看
<a href=""></a>http://www.systex.com.tw/systex2/home/banner/EDM\_2008/se\_epaper/0809/se\_epaper\_080902\_2.htm&lt;a href=""></a>

22
silly
iT邦好手 2 級 ‧ 2009-04-10 11:16:06

你要不要試試Google Desktop,它有個人版與企業版兩個版本;
那麼大量的資料要建索引也是需要不少時間就是了。

20
kstingray
iT邦新手 4 級 ‧ 2009-04-10 18:29:58

既然是公司內部的資料要備份存檔,可能要考慮完整的儲存資訊生命週期,以及資訊安全的權限控管喔,而且經年累月下來檔案只會不斷增加,做長遠的規劃會比較好唷 @.@

如前幾位大大所述,小的也認為用「搜尋引擎技術」來處理龐大的資料源會比較有效率,索引檔被灌爆應該是該產品沒有做到巨量的索引技術。不然用一般DB,10TB光備份就要花上一個月,日後要進行某一封郵件調閱可能更要會花上數個月。

一般企業軟體都有提供試用,您要不要直接問廠商看看,試用滿意再娶進門 XD,關於二樓大大所提到的 Openfind,他們網站有說,想試用可以跟他們聯絡耶 Openfind (右邊框框)

個人用過 Lucene ,還滿好用的,不過沒有讓他吃過這麼多資料....
感覺會等到天荒地老 XDDDDDD

14
neilcsf
iT邦新手 4 級 ‧ 2009-04-13 19:21:12

我的思考立場是,在沒有相關資源 (預算、採購系統) 幫忙下,您可以做哪些事情。

建議您應該要先做的是"分析" 我想 10TB 未必是全然要歸檔與查詢的資料。先確認要歸檔哪些帳號、或是只要歸檔那些信件,其他部份就不需要備份,不然也浪費空間。

其次是使用率,如果只是備而不查的資料,我想您就放在硬碟裡或歸檔在磁帶就算了,不用花您的時間跟成本去想解決方案。

我想您的資料,依此模式應該會區分成三塊 1.經常要查詢的(也許是1~2個月) 2.偶爾查一下 (也許是 6~12個月) 3.備而不查。

所以 如果僅是要針對"1.經常要查詢的" 1~2個月的資料建立索引跟查一查,我想即便是微軟,應該也是OK,只是會有檢索時效性與正確性的問題而已。2,3 就慢慢建索引跟慢慢查吧。

最後如果您是隨時都要查這 2 年內的資料,我想這個等級是 Large-Scale 進議您還是找專業搜尋引擎幫忙較佳,一般資料庫軟體我想就免了。 (以上參考)

我要發表回答

立即登入回答