TAK

local multiple alignment text-mining

http://updatenews.sub.jp/strings.php
実際のWeb上のテキストは予想よりもだいぶ整った情報であって、 乱雑な文章に対応した
研究用のアルゴリズムでうまくいかず、仕方がないので
安直で単純な方法にしました。
これでもまだ量が少ないのであまりはっきりとはわかりませんが、
以前の出力結果よりはよほど(人間にとって)ましになったと思います。

もう少し時間が経って十分なテキストが集まれば見栄えするでしょうか?

すくなくともこんなことをやっているわけではありません。

どちらかといえばこのように高度な知能的な処理を行う(ことを目標としています)



タイトルのアラインメントとは、
主にバイオインフォマティクスでこの言葉が使われます。
塩基配列の類似性から、任意の遺伝子と別の固体(種族)の遺伝子との対応付けを行うものです。

自然言語処理では、主に機械翻訳でこの言葉が使われます。
文Xの単語aが訳文Yの単語bに対応する。 というように


さて、わたくしの研究で何がアラインメントかというと、
複数(マルチプルアラインメント)の文章の任意の場所(ローカルアラインメント)同士の対応付けをします。
これでも、↓のようにアラインメントする領域が完全一致しているなら簡単です。


Suffix Tree, Suffix Arrayなどの考えによって、検索インデックスを作成する方法で(線形計算量ぐらいで)一致領域を全て列挙できます。

本研究では十分なあいまい性を許容した類似領域の検出を行おうとします。