TAK

SPAM BLOG FILTER

世界で最も多いのは日本語ブログ世界の3分の1以上という「異常な」数値の理由ですが、

わたくしが毎日ブログ(特定の分野ではなく完全無作為に)を読んでいる感覚では、
過半数以上、わたくしは90%超はSPAM であるからだと確信しています。
Ameba blogを蝕むSPAMの脅威

はてなユーザさんはこのあたりのことは十分に理解していると思うので、
そこは詳しくは触れません。



毎日内容が変わるので、ベイズフィルタみたいな方法だとうまく検出できません
ベイジアンフィルタ回避でダミーの文書を張る手法はワードサラダ(Word Salad)と言う

基本的にはこのような自動blogには必ず特徴というか、癖があってそこを押さえれば検出できるのですが、
コンピュータウィルスと同じで亜種や変種がいくつもあります。



などを踏まえて、とりあえず、SPAM BLOG FILTERを実装しました。
http://updatenews.heteml.jp/blog.php

これは分類精度どうでしょうか
まだ誤りがありますかね