FuzzyOcr反垃圾郵件插件
FuzzyOCR,是一套修改自OcrPlugin的Spamassassin plugin。同樣是利用光學字符辨認(OCR)的方式,來識別圖像式郵件所包含的「文字訊息」,并利用Fuzzy word matching算法判斷辨識出來的文字。
主要具備了下列的功能:
Optical Character Recognition using different engines and settings
Fuzzy word matching algorithm applied to OCR results
Image hashing system to learn unique properties of known spam images
Dimension, size and integrity checking of images
Content-Type verification for the containing email
Matching and learning techniques
可彈性支持不同的OCR interface,并利用fuzzy word matching算法來處理辨識的結果。
支持DB,可將處理過的圖片,以 feature vectors的形態(tài)儲存在數(shù)據(jù)庫。因此相同或是類似的圖片,便可以利用儲存在DB的特征向量來處理。
能檢測不同維 度、size與整合性的測試。
郵件內容檢測。
Resource saving techniques
僅掃描郵件,而非辨認該封信件是否為垃圾信件。信件的分類仍交由spamassassin所判別的分數(shù)高低來決定。
對于已達到 spam分數(shù)門坎的郵件,F(xiàn)uzzyOCR在處理該封郵件時會忽略該封信件而不進行掃描,進而減輕系統(tǒng)負載。(3.5版之后提供)
藉 由比對儲存于DB的feature vectors(dimensions and file size)。若比對成功,則忽略該封信件,而不再進行OCR辨識與處理。
