nDiki : bogofilter

2003年9月22日 (月)

bogofilter が過敏になってきた

bogofilter が非 spam メールをはじくようになってきた。 ここ最近 spam メールしか学習させてなかったせいか、それとも bogofilter のバージョンが上がった事による影響か。

しばらくは誤認識された非 spam メールを学習させて様子見。 それで駄目なら過去メールから非 spam メール学習を大量にさせないといかんな。

[ 9月22日全て ]

2003年12月19日 (金)

[ Debian ] bogofilter の db が壊れた

追加で学習させようとしたらエラーが出るようになってしまった。 しかたないので、一旦削除して学習しなおし。 spam メールはまとめてあるのでガツンと学習させられるのだが、 non-spamメールは大量にあるのでバランス良く学習させるのは面倒。 とりあえずいくつかのメールフォルダ内のメールを学習させて、あとはまた誤認識したメールをチマチマと学習させるしかないか。

[ 12月19日全て ]

2003年12月31日 (水)

私的10大ニュース2003

今年の大事件、マイブームなど。

[web] WiKicker 公開

オリジナル WikiEngine 「WiKicker」を公開し、 www.naney.org での運用を開始。 機能追加、負荷軽減など定期的にメンテナンスを継続中。 今年も1年 Wiki の年だった。

12月からは WiKicker ベースの日記システムDiKicker」の開発も開始。

[comp] cool programs

[net] ADSLトラブル

モデム

春の数ヶ月間悩まされ続けた。 一度常時接続に慣れてしまうと、もう戻れない。 結局モデムの故障。 その間「@FreeD」も契約してみたが、ADSL復旧に合わせて解約。

P-in Free 1P

[comp] 適応型ソフトウェア開発

仕事でのソフトウェアプロジェクトでの適用を開始しはじめてみた。

[comp] ThinkPad X31 2672-PHJ

ThinkPad

3年ぶりのメインノート PC の買い換えPentium M 1.6GHz + 1GBメモリ。 また3年は頑張ってもらわないと。

[camera] TC-1GR1s修理

TC-1 GR1s

愛用のTC-1が故障したため修理修理費16,300円也

GR1s修理

新規に購入したのは、Ai Nikkor 45mm F2.8P(10月12日)、 F3接眼補助レンズドンケ F-2 ぐらい。 あまり散財しなかった。

接眼補助レンズ ドンケ F-2 Ai Nikkor 45mm F2.8P

今年は撮影枚数が伸びず。

近所のミニラボが閉店したのも痛い。

[misc] レザークラフト

昨年買ったままだったレザークラフトセットを使ってレザークラフトを始めた。 パスケース、LEDフラッシュライトケース x 2、ツールナイフケース x 2、露出計ケース などを製作。 最近は何も作ってないな。 また何か作りたい。

LEATHERMAN MICRA 革ケース ツインメイトカバー SureFire エクゼクティブ・エリート E1e + KL1 レザーケース マグライト ソリテールケース Leatherman juice S2 レザーケース Arc-LS 用レザーケース

[misc] LEDフラッシュライト

LEDフラッシュライトに興味を持つ。 SureFire E1e + KL1ARC-AAAArc LSL-P などを購入。

SureFire E1E-HA Arc-AAA Arc LSL-P

[ 12月31日全て ]

2004年4月24日 (土)

過去の今ごろ

過去の4月24日より。

[ 4月24日全て ]

2004年7月3日 (土)

Google AdSense

先週の金曜日に申し込んでみていたGoogle AdSenseだがなかなか審査の返事がこない。 どうなっているのかなーと思って、申し込み時のパスワードでログインしたらログインできてしまった (後でチェックしてみたら今日の夕方に承認メールが届いていた。bogofilterspam 扱いにされてた。結果、ログインしたのはきちんと承認後だった)。

レイアウトに試行錯誤しつつ、ページのサイドバーとかに入れてみる。 最初うまく表示されないので「あれ?」と思ったのだがPrivoxyブロックされていただけだった。

ページ毎に広告がかわるのは面白いし、管理が楽でいいな。

しかしクリック報酬だとどこまでいけるのだろうか。 ここ最近は成果報酬の方が効率が良いのだが、果たして。

[ 7月3日全て ]

2004年12月11日 (土)

Clam AntiVirus + procmailウイルス除去

として Clam AntiVirus (ClamAV) を入れてみた。

debパッケージで clamav 他関連パッケージをインストールデータベースの更新は cron による更新を選択。 お手軽。

ファイルのチェック

ディレクトリのチェックは

 clamscan -r

で。

メールの振り分け

ウイルスメールの振り分けは spam メールとあわせて bogofilter で行ってきていた。 ウイルスメールもだいたい検出できているのだが、すり抜けるものもある。 procmailbogofilter の前に ClamAV で振り分けるようにしよう。

.procmailrc に

 #------------------------
 # Clam Antivirus
 #------------------------
 :0 HB
 * ? /usr/bin/clamscan --log=$HOME/clamscan.log --quiet - ;test $? = "1"
 $HOME/Mail/newvirus/.

を追加。

[ 12月11日全て ]

2004年12月12日 (日)

bogofilter のDB作り直し

昨日 ClamAV を設定したので、bogofilter の DB からウイルスメール登録の undo をかけた。 結果、うまくフィルタリングができなくなった。

しょうがないのでDBを一旦削除し、約19,000ある過去spamメールを登録し直す。 が、フィルタリングしない。

あれ?

bogofilter -t でチェックをしてみても spamspam と判定していない様子。

でいろいろいじったところ non-spamメールの方の登録が全く無いと駄目のようだ。 さっき作り直したDBは削除してしまったので、non-spam をある程度登録した後に spamメール約19,000を登録し直し。 かなり時間がかかってしまったが、これで元通りきちんとフィルタリングできるようになった。

ついでに今回からは procmail から呼び出す bogofilter に -u オプションを設定して、どんどん DB を強化する事にする。 なので、今までは誤認識した場合は -s / -n で新規登録のみしていたところを、今後は -Ns / -Sn で undo してから登録するようにする必要あり(本当は spam として振り分けなかった場合 non-spam か unsure のどちらかなので、後者の場合は -Sn ではなく -n にすべき)。

[ 12月12日全て ]

2005年3月9日 (水)

bogofilter日本語 spam メールを弾けなくなったのでDB作り直し

最近 bogofilter日本語 spam メールをほとんど弾かなくなってきている。 英語や中国語のspamメールはきちんと弾いているのだけれども。

チェックしてみると逆に積極的に non-spam 判定されている spam メールもある。

前回設定を見直した時procmail から bogofilter を呼び出した際に -u オプションでどんどん新規登録するようにしたのだが、どうもこれで誤登録を重ねてしまっているようだ。

spam メールも non-spam メールも最終的には全て目視でチェックしており、不適切な振り分けがあった場合は手動で再学習させるようにしている。 spam メールbogofilter -u で spam として振り分けられなかった場合

  • non-spam 判定されている -> bogofilter -Ns で一旦 undo してから登録
  • unsure 判定されている -> bogofilter -s で登録

とするべきで当初そうしていたのだが、最近横着をしてすべて -s してしまっていた。

どうもこれでspamに特有な語が non-spam 側のテーブルにも残ってしまい、結果 non-spam 側に判定が傾きがちになってしまったようだ。そうこしているあいだに -u でどんどん誤登録が進んでしまったと思われる。

手動ではもはやDBをいい塩梅にもっていけなさそうなので、DBを作り直し。 26,000件の spam メールの登録をしかけて、就寝。

[ 3月9日全て ]

2005年7月9日 (土)

bogofilter から bsfilter に乗り換え

spam メールprocmailbogofilter (with nkf + KAKASI) しているのだが、以前からちょっと挙動が変である。 すり抜けてきた spam メールをあらためて、bogofilter で判定してみると spam メール判定になることがしばしば。

ということで、Mew を 4.2 にアップデートしたついでに spam フィルタを bsfilter にかえてみることにした。

sid のパッケージはちょっと古いので、tarball を持ってきて /usr/local の下に展開。

procmail

.procmailrc に以下を追加:

 #------------------------
 # bsfilter
 #------------------------
 :0 HB:
 * ? /usr/local/bsfilter-1.0.7/bsfilter/bsfilter
 $HOME/Mail/newspam/.

Mew

それから Mew の方は /usr/local/bsfilter-1.0.7/mua/mew4/ の下の emacs.el と mew.el をロードするようにしておく。

  • inbox に spam メールがきたら、Summary mode で 'ls'。
  • (procmail の振り分けで)newspam に ham メールがきたら、Summary mode で 'lh'。

今回は収集済みの spam メールをまとめて登録することなく、新着のもののみポチポチ登録しているのだがそれでも十分振り分けてくれる。

使い始めの感蝕としては、 bogofilter より bsfilter の方が積極的に spam メール判定になっている感じだ。bigram による傾向なのかな?

[ 7月9日全て ]

2007年8月11日 (土)

Gmail へのメールボックス移行で spam 誤判定と転送問題にぶつかる

全てのメールボックスを Gmail に集約してから3日目。

いろいろと気がついた点等をメモ

spam 誤判定が多い

今まで使っていた bogofilterbsfilter では比較的安全側にふってあって、spam メールが ham メールと判定されることはあっても(結構ある)、ham メールspam メールと判定されることはほとんどなかった。

しかし Gmail はかなり過激に spam メールと判定してくれる。 気をつけないとメールを見逃がすので、今のところ定期的「迷惑メール」をチェックする必要がある。

面倒だけれどもしょうがない。ある程度学習したら落ちつくのか?

うまくメールが転送されてこない?

何かぐっと届くメールが減った感じがしたので確認したら、今まで使っていたメールボックスに、転送に失敗したのか80通強ほどメールが溜っていた。

送り側が悪いのか Gmail 側が悪いのかわからないけれども、これは困る。 メーリングリストメールマガジン系が転送できていない傾向が強いが、かといって全てがそうなわけでもない。うーん。

パスワードを登録する」のと「POP3 で平文パスワードが流れるようになる」のがかなり嫌なんだけれども、しょうがないので転送をやめて Gmail 側から POP することにした。

今まで取れていなかったメールもとりあえず取りこぼさないようになりそう。

この設定でまたしばらく様子見。

[ 8月11日全て ]

About Me

Naney Naney (なにい)です。株式会社ミクシィで SNS 事業の部長をしています。

nDiki1999年1月に始めたコンピュータ日誌を前身とする NaneyWeb 日記(兼パーソナルナレッジベース)です。ちょっとしたノートは nNote にあります。

※内容は個人的見解であり所属組織とは関係ありません。

月別インデックス
Process Time: 0.051513s / load averages: 0.17, 0.24, 0.30
nDiki by WATANABE Yoshimasa (Naney)
Powered by DiKicker