戯術者の日記 / 2005-09-18

(2005-09の一覧)
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2005-09-18 Sun

spamassassin Bayesianフィルタ設定
2005-09-18-1 / カテゴリ: [linux][debian][メール] / [permlink]

[2005-09-14-1]の続き。
USAGE の通りに

      spamassassin -t < sample-nonspam.txt > nonspam.out
      spamassassin -t < sample-spam.txt > spam.out

を一般ユーザで実行すると、~/.spamassassin 以下に

bayes_seen: Berkeley DB (Hash, version 8, native byte-order)
bayes_toks: Berkeley DB (Hash, version 8, native byte-order)

2つのファイルができた。
どうやら、デフォルトで bayesian フィルタを使うようになっているようだ。設定項目のリストおよびデフォルト値は

$ perldoc Mail::SpamAssassin::Conf

で見れる。

で、とりあえず、手元の spam さんたちを spam 扱いとして DB に突っ込む。

$ sa-learn --spam ~/Maildir/.Junk/cur

負荷と時間名はそれなりにかかる…(約2000通のメールで20分ほど)
更新された DB ファイルは

-rw-------  1 zaki zaki  176128 2005-09-18 18:17 bayes_seen
-rw-------  1 zaki zaki 5242880 2005-09-18 18:17 bayes_toks

こんなサイズ。
ディレクトリでなく、ファイル指定も OK みたい。

逆に、非 spam メールは --ham 指定で sa-learn を実行

$ sa-learn --ham ~/Maildir/.Friend/cur

とりあえず、これだけセットして、.procmailrc で fetch と同時にフィルタリングするよう設定

 :0 fw
 | /usr/bin/spamassassin
 
 :0 :
 * ^X-Spam-Status: Yes
 $HOME/Maildir/.Spam/

f はパイプ(|)をフィルタとみなし、w はフィルタが異常終了した場合はフィルタに渡す前の状態にする、と(man fetchmailrc)

でもって、ケータイから1通メールを送ってみると、ヘッダにちゃんとチェック結果が追記されていた。

X-Spam-Checker-Version: SpamAssassin 3.0.3 (2005-04-27) on cheddar
X-Spam-Level: *
X-Spam-Status: No, score=1.4 required=7.0 tests=AWL,BAYES_50,NO_REAL_NAME,
	PRIORITY_NO_NAME autolearn=no version=3.0.3

ふーん、、、

で、セット後数時間経過したら、ちょーど spam がキタ

X-Spam-Flag: YES
X-Spam-Checker-Version: SpamAssassin 3.0.3 (2005-04-27) on cheddar
X-Spam-Level: ****************
X-Spam-Status: Yes, score=16.8 required=7.0 tests=BAYES_99,NO_REAL_NAME,
	RCVD_IN_SBL,SUBJ_ILLEGAL_CHARS,URIBL_AB_SURBL,URIBL_OB_SURBL,
	URIBL_SBL,URIBL_SC_SURBL,URIBL_WS_SURBL autolearn=spam version=3.0.3
X-Spam-Report: 
	*  0.0 NO_REAL_NAME From: does not include a real name
	*  2.9 SUBJ_ILLEGAL_CHARS Subject contains too many raw illegal characters
	*  3.5 BAYES_99 BODY: Bayesian spam probability is 99 to 100%
	*      [score: 1.0000]
	*  0.1 RCVD_IN_SBL RBL: Received via a relay in Spamhaus SBL
	*      [220.230.107.120 listed in sbl-xbl.spamhaus.org]
	*  1.0 URIBL_SBL Contains an URL listed in the SBL blocklist
	*      [URIs: lovinyou.net]
	*  0.4 URIBL_AB_SURBL Contains an URL listed in the AB SURBL blocklist
	*      [URIs: lovinyou.net]
	*  1.5 URIBL_WS_SURBL Contains an URL listed in the WS SURBL blocklist
	*      [URIs: lovinyou.net]
	*  3.2 URIBL_OB_SURBL Contains an URL listed in the OB SURBL blocklist
	*      [URIs: lovinyou.net]
	*  4.3 URIBL_SC_SURBL Contains an URL listed in the SC SURBL blocklist
	*      [URIs: lovinyou.net]

おー
BAYES_99 がベイジアンフィルタでのチェック結果ぽいな。
これから spam くるのが楽しみだ(本末転倒)

しっかし、結果として spam 認定したときのプロセスの実行がすげー重い… 十数秒はかかる。やっぱチューニング必要なのかなぁ…

設定リストメモ
http://spamassassin.apache.org/tests_3_0_x.html

[ コメント ]

前の日 / 次の日 / 最新 / 2005-09

2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2013-05-02 16:12

戯術者の日記

2005-09-18

spamassassin Bayesianフィルタ設定
2005-09-18-1 / カテゴリ: [linux][debian][メール] / [permlink]

2013-05-02

2013-04-20

2013-04-12

2013-03-28

2013-03-26

2013-03-20

2013-02-28

2013-02-27

2013-02-25

2012-11-11

2005-09-18

spamassassin Bayesianフィルタ 設定 2005-09-18-1 / カテゴリ: [linux][debian][メール] / [permlink]

spamassassin Bayesianフィルタ設定
2005-09-18-1 / カテゴリ: [linux][debian][メール] / [permlink]