TAK

簡易複数文書要約

一応複数文書要約も実装しましたが。
研究用のアルゴリズムではblogに対してはニュース文書よりもさらにうまくいかないので、色々と工夫して研究用ではないアルゴリズムによって
まあ何とか一応見れば意味はわかると思うぐらいになったので、表示します。

http://updatenews.sub.jp/s/

EPIC みたいに「自動的に記事を生成する」ということを実現しようとしているのですが、
しかしこれでも「要約」という感じではないですね。

というか、そもそもblogの文中には有意な意味はほとんど存在していないということなのでしょうか。



実際には意味ある情報は存在しているんですが、その期待値はかなり低いです。
よほど大量のテキストを収集しないと知見は得られないですね。
http://d.hatena.ne.jp/taos/20070530
わたくしは現在まだ強力なマシンパワーを使えないので、どうにかしたいのですが...


そうすれば、色々とこういうことは、自動化できそうです。
http://d.hatena.ne.jp/syou6162/20070525
http://d.hatena.ne.jp/high190/20070802
http://d.hatena.ne.jp/etedu/20070528

                                                                                                                                                  • -

正確な統計をとることが難しいのですが
少なくとも、blog(文書中の文)の過半数は全く新しい知見がない情報であるはずです。


?コピー系 (SEOなど狙った全く価値がない情報)
 
他サイトの文を「そのまま」コピー、またはコピー編集(完全自動/手動)などしています。
情報量が極めて少ないので、ほとんど読む価値はありません。
内容がニュース速報など、何か意味があるとしても、です。
情報量がほとんどないことが最大の理由です。




?感想、意見、提言系

上に次いで情報量が少ないです。
例え、プロのジャーナリスト、論客による文書だとしても、素人のものと決定的な価値の差はないです。
やはりこれも情報量が少ないことが理由はです。
よほど新規性がある意味を述べなければ、同じようなことを言う人間は(既に)多数いるので、その情報自体の価値が小さいのです。


テキストマイニング技術のほとんどはこの点に注視しています。
本システムもそこを利用します。
「誰」が「何(単語レベル程度の詳細度)」を述べたかの情報はほとんど意味がないのです。


?日記系

つまらないくだらない日記に類するものです。
しかしながら、これは上に比べれば新しい知見がある情報です。
真の知識の蓄積が起こっているのは、これであるからです。
圧倒的に情報量が大きい有意な情報です。

本システムのニュース複数文書要約技術の方はこちらに注目します。

こう考えました、 こう思います (上記?感想系)
ではなく、こういうことが起きました、 こういうことを見聞きしました、 
という、「客観的事実」だけをダラダラと述べているものです。
これこそが真に情報量がある情報です。