垃圾郵件過濾之"貝氏過濾法"簡介
「貝氏過濾法」是利用「貝氏定理」發明的過濾法,簡單來說,「貝氏定理」是結合事前機率與條件機率,導出事後機率的過程。是將信件切分成單詞(Token),利用演算法統計每個單詞的機率,進而推算出可能為垃圾信高達的機率。
「貝氏定理」是要仰賴過往累積的數據來預測事件發生的機率。因此對於空的「貝氏過濾法資料庫」,如能事先提供1000封垃圾信,與1000封正常信件,對信件辨別的訓練過程將帶來莫大幫助,首先分別將1000封的正常信與垃圾信放入資料庫,系統會將這2000封信的內容切成單詞,給予不同的機率。當下次新信件來時,一樣會把信件分解成單詞,比對訓練過的「貝氏過濾法資料庫」,分析過往的經驗,將能精確評判此封高達為垃圾信件的機率。有了訓練「貝氏過濾法資料庫」的步驟,「貝氏過濾法」的精準率必能達到95%~99.95%之準值。
垃圾其實類似於病毒;譬如防毒廠商必須為新病毒提供防毒定義檔,否則未被攔截的病毒勢將危害整個網路;假設一套有效系統能在初次中毒後,將病毒載入其中,日後即可自動攔阻同種病毒,聽起來是否很令人振奮?沒錯!「貝氏過濾法」即是基於此種理念,當同一封垃圾大量傳送時,同一間公司便會有相當人數收到同一封垃圾信,假設第一人將收到的垃圾信即刻送回系統學習,下一封垃圾信就會被有效攔截。
恩?從這一篇:
http://www.qicsys.com/enews/tech2.htm
刪節出來的?
原來我看的資料是從此而來.
「貝氏定理」簡單來說,就是以根據之前的經驗的集合,來推測出下一次事情發生的機率。換句話說,「貝氏過濾法」就是依據之前判斷為垃圾信與正常信的經驗,來作為之後判斷垃圾郵件的標準。
目前「貝氏過濾法」遇到最大的問題是,現今垃圾信的變化速度愈來愈快,spammers 為了防止各種郵件過濾方式,不斷地進行各種造假、內容也一直改變,在這種情況下,仍依照舊的郵件作為新郵件是否為垃圾郵件的標準,與過去關鍵字不複雜的時代相比,過濾效果已經大打折扣。