(2005-09の一覧)
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
spamassassin Bayesianフィルタ 設定
2005-09-18-1 / カテゴリ: [linux][debian][メール] / [permlink]
[2005-09-14-1]の続き。
USAGE の通りに
どうやら、デフォルトで bayesian フィルタを使うようになっているようだ。設定項目のリストおよびデフォルト値は
で、とりあえず、手元の spam さんたちを spam 扱いとして DB に突っ込む。
更新された DB ファイルは
ディレクトリでなく、ファイル指定も OK みたい。
逆に、非 spam メールは --ham 指定で sa-learn を実行
とりあえず、これだけセットして、.procmailrc で fetch と同時にフィルタリングするよう設定
でもって、ケータイから1通メールを送ってみると、ヘッダにちゃんとチェック結果が追記されていた。
で、セット後数時間経過したら、ちょーど spam がキタ
BAYES_99 がベイジアンフィルタでのチェック結果ぽいな。
これから spam くるのが楽しみだ(本末転倒)
しっかし、結果として spam 認定したときのプロセスの実行がすげー重い… 十数秒はかかる。やっぱチューニング必要なのかなぁ…
設定リストメモ
http://spamassassin.apache.org/tests_3_0_x.html
USAGE の通りに
spamassassin -t < sample-nonspam.txt > nonspam.out spamassassin -t < sample-spam.txt > spam.outを一般ユーザで実行すると、~/.spamassassin 以下に
bayes_seen: Berkeley DB (Hash, version 8, native byte-order)2つのファイルができた。
bayes_toks: Berkeley DB (Hash, version 8, native byte-order)
どうやら、デフォルトで bayesian フィルタを使うようになっているようだ。設定項目のリストおよびデフォルト値は
$ perldoc Mail::SpamAssassin::Confで見れる。
で、とりあえず、手元の spam さんたちを spam 扱いとして DB に突っ込む。
$ sa-learn --spam ~/Maildir/.Junk/cur負荷と時間名はそれなりにかかる…(約2000通のメールで20分ほど)
更新された DB ファイルは
-rw------- 1 zaki zaki 176128 2005-09-18 18:17 bayes_seen -rw------- 1 zaki zaki 5242880 2005-09-18 18:17 bayes_toksこんなサイズ。
ディレクトリでなく、ファイル指定も OK みたい。
逆に、非 spam メールは --ham 指定で sa-learn を実行
$ sa-learn --ham ~/Maildir/.Friend/cur
とりあえず、これだけセットして、.procmailrc で fetch と同時にフィルタリングするよう設定
:0 fw | /usr/bin/spamassassin :0 : * ^X-Spam-Status: Yes $HOME/Maildir/.Spam/f はパイプ(|)をフィルタとみなし、w はフィルタが異常終了した場合はフィルタに渡す前の状態にする、と(man fetchmailrc)
でもって、ケータイから1通メールを送ってみると、ヘッダにちゃんとチェック結果が追記されていた。
X-Spam-Checker-Version: SpamAssassin 3.0.3 (2005-04-27) on cheddar X-Spam-Level: * X-Spam-Status: No, score=1.4 required=7.0 tests=AWL,BAYES_50,NO_REAL_NAME, PRIORITY_NO_NAME autolearn=no version=3.0.3ふーん、、、
で、セット後数時間経過したら、ちょーど spam がキタ
X-Spam-Flag: YES X-Spam-Checker-Version: SpamAssassin 3.0.3 (2005-04-27) on cheddar X-Spam-Level: **************** X-Spam-Status: Yes, score=16.8 required=7.0 tests=BAYES_99,NO_REAL_NAME, RCVD_IN_SBL,SUBJ_ILLEGAL_CHARS,URIBL_AB_SURBL,URIBL_OB_SURBL, URIBL_SBL,URIBL_SC_SURBL,URIBL_WS_SURBL autolearn=spam version=3.0.3 X-Spam-Report: * 0.0 NO_REAL_NAME From: does not include a real name * 2.9 SUBJ_ILLEGAL_CHARS Subject contains too many raw illegal characters * 3.5 BAYES_99 BODY: Bayesian spam probability is 99 to 100% * [score: 1.0000] * 0.1 RCVD_IN_SBL RBL: Received via a relay in Spamhaus SBL * [220.230.107.120 listed in sbl-xbl.spamhaus.org] * 1.0 URIBL_SBL Contains an URL listed in the SBL blocklist * [URIs: lovinyou.net] * 0.4 URIBL_AB_SURBL Contains an URL listed in the AB SURBL blocklist * [URIs: lovinyou.net] * 1.5 URIBL_WS_SURBL Contains an URL listed in the WS SURBL blocklist * [URIs: lovinyou.net] * 3.2 URIBL_OB_SURBL Contains an URL listed in the OB SURBL blocklist * [URIs: lovinyou.net] * 4.3 URIBL_SC_SURBL Contains an URL listed in the SC SURBL blocklist * [URIs: lovinyou.net]おー
BAYES_99 がベイジアンフィルタでのチェック結果ぽいな。
これから spam くるのが楽しみだ(本末転倒)
しっかし、結果として spam 認定したときのプロセスの実行がすげー重い… 十数秒はかかる。やっぱチューニング必要なのかなぁ…
設定リストメモ
http://spamassassin.apache.org/tests_3_0_x.html
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
最終更新時間: 2013-05-02 16:12