2007中に実現したものを書いておきます。
CSP各社に売り込む方法を誰か教えてください。
splogフィルタ
新聞記事には他社の記事をコピーしたような文章ばかりです。
新聞記事コピー率
redandancyの数値が、そのコピー率です。
色々なblogマイニングやってます。
update talking accumulator
特定キーワードの関連キーワードとか表示します。
関連語表示とか出来ます。
※任意の類似表現の検出を行います。
これが(計算量的に)最も困難な問題です。
計算量爆発を回避して近似解を求める手法を実装しました。
「こういうことできないか」といわれれば、
出来る/出来ないという回答は出来ます。