TAK

(予備知識なし)複数文書類似文字列検出

今話題の言葉(blogでよく使われる、など)をユーザに見せるwebサイトなど、割りと有名なところなどいくつかありますが、
http://d.hatena.ne.jp/hotkeyword
http://blog.fc2.com/
http://keyword.livedoor.com/ranking/access_ranking.html
http://blog.with2.net/trend_words.php
http://tag.seesaa.jp/t/articles/
http://kizasi.jp/24/ranking.html
http://news.fresheye.com/ranking/kw/
http://ranking.goo.ne.jp/ranking/001/keyrank_all1/
http://www.namaan.net/hotkeyword.xml
各社共に、挙げているキーワードの傾向が全然違うようです。



さて、
今わたくしが研究しているアルゴリズムで何かできるのかというと、
このような単語レベルでの厳密一致の検出ではなく、より長い文レベルで(しかも冗長性と曖昧性を含んだ表現)の検索index作成ができるようになります。

既存システムで存在したものは、
?厳密一致でユーザエントリのトレンドを解析する
?ユーザの検索クエリーに曖昧性を許す、や、 検索クエリーそのものが含まなくても、ユーザを満足させることができるであろうファイルを返す、 といった質問応答、類似検索的な研究、システムがありました。


本システムは、表現の曖昧性を許容した、しかも文レベルの長い表現の頻出傾向を捉える、というものです。
プレゼンテーション資料だともう少しはわかりやすくなるのですが、
実際のシステムを見ればもう少しはわかりやすいだろうと思います。


とはいえ、あまりパッとしませんね。
もっと大量のデータに対して、説得力ある結果を見せ付けないとだめでしょうかね
トップ


この例では、 パイレーツ・オブ・カリビアン ワールドエンド 観て来た
と、同じような表現(文字の並び順も考慮した)だけを任意のblog中から見つけ出してくるのです。

しかも、重要な点は、 システムが 「パイレーツ」「カリビアン」「ワールドエンド」その他、一切のキーワードを事前に知ることなく、
2,3日の間に書かれたblogの内容全文をシステムがよんで、その中で、 〜〜〜というような文字の並びがたくさん出ていますよ。
(※重要 キーワード 単語 レベルではない、冗長性やあいまい性を含んだもっと長い表現) ということを知らせます。




と、いう訳で、これをどこかで事業化とかしたいとか思うのですが、
ビジネスモデル作ってくれるような人には利益をあげてもいいです。
どういう所にどういう形で持って行くかなど
興味ある人はだれか協力してください。