- 2005-02-01 (火) 1:38
- MovableType
どこのサイトか分かんないけど、コメントスパムぽいものが大量についていました。
うちのブログはロリポップさんにスペースを借りておいてあって、ここはアクセスログを取得することが出来ます。
ちょっと眺めてみると、どうも手動っぽい動きをしているようで、一つ一つ手で書いていったのでしょうか…ご苦労様です。
とりあえず 結構前から密かに導入してあったベイジアンフィルタの学習に使わせて頂きました
どうもありがとう(ぉ
MTのベイジアンフィルタについてはこちらから
Bayesian filter for MTの導入自体は凄く簡単です。
こちらの配布元からファイル(mt-bayesian-1.1.tar.gz)をダウンロードしてきて解凍した後、中のREADMEのとおりにファイルを配置します。
./
mt-bayesian.cgi パーミッションを755に
./plugins
mt-bayesian.pl
./lib/MT
Bayesian.pm
BayesianBlog.pm
BayesianToken.pm
./lib/MT/App
BayesianTrain.pm
./tmpl/cms
bayesian_menu.tmpl
bayesian_list_blog.tmpl
bayesian_list_comments.tmpl
bayesian_list_pings.tmpl
mysqlやpostgresなどのDBIエンジンを使用している場合は以下も配置
./
bayesian-init-db.cgi パーミッションを755に
./bdb
bayesian_mysql.dump
bayesian_postgres.dump
bayesian_sqlite.dump
配置できたらブラウザからhttp://(mt)/bayesian-init-db.cgiを開いてベイジアン用のデータベースを設定します。
設定が終わったらbayesian-init-db.cgiは削除しておきます。
と、設置はこれでいいのですが、このままだと日本語に対応していないらしく、日本語のスパムだと学習してくれないようなので、こちらの解説を参考に日本語対応させます。
Kakasiというモジュールが必要らしいですが、ロリポップのサーバには既に導入済みのようで、普通に使えました。
./lib/MT/Bayesian.pm のファイルをテキストエディタで開いて編集します。
以下、そのまま引用
12行目あたりに
use Text::Kakasi;
を追加
16行目あたりに
my $kakasires = Text::Kakasi::getopt_argv(‘kakasi’, ‘-ieuc’, ‘-w’);
を追加
40行目あたりを
my $max_token_length = 15;
↓
my $max_token_length = 30;
に変更
112行目あたりを
foreach $token (split /[^-\$A-Za-z0-9\']+/,$message) {
↓
$message = Text::Kakasi::do_kakasi($message);
foreach $token (split /[\s]+/,$message) {
に変更
このファイルを指定の場所に配置すると日本語対応完了です。
さて、タグがいろいろ使えるようですが、とりあえず、http://(mt)/mt-bayesian.cgiを開くと、ベイジアンの管理画面に入ることが出来ます。
ここで「ManageComments」や[Manage Pings」などを選んでスパムコメントの学習やコメントの削除などの処理が行えます。
とりあえず、スパムっぽいコメントの「SPAM」の欄にチェック、スパムではないコメントは「Not SPAM」にチェックをつけて、「TRAIN」ボタンを押して学習させておきましょう。
ある程度立つと自動でチェックを入れてくれるようになるので、間違っていたら「Not SPAM」にチェックをつけて学習させます。
スパムを消す時は「CONFIRM」ボタンや「ALL」ボタンを押すと削除することが出来ます。
- Newer: ベイジアンフィルタと連携
- Older: Gmailのメールアドレスアイコン再び
Comments:0
Trackbacks:0
- Trackback URL for this entry
- http://blog.eternalmiracle.net/taka/archives/2005/02/01-013834/trackback
- Listed below are links to weblogs that reference
- なにやら大量のコメントスパムが…(Bayesianfilter導入 from eternal miracle blog mode

