TAK

2007-01-01から1年間の記事一覧

日本語splogサンプリング調査

統計 http://updatenews.ddo.jp/d/ splog filter http://updatenews.ddo.jp/b/ サンプリング率は0.001です 日本語splogは予想よりは少ないです。2007年11月25日 03:00 〜 28日 03:00 の 72時間 から 1519件をサンプリングしました。 splogは90%はあるんじゃ…

一日あたりのblog投稿総数

Technoratiの調査結果 というわけで、実際に数えてみました。 新着blog の RSS Feed を公開してるところ限定ですが、 RSS Feedに出てくる全てのユニークなURLの総数です。 調査期間は2007年11月21日 09:00 〜 2007年11月22日 09:00 の24時間です。 Livedoor …

キーワード出現傾向

キーワードの出現傾向グラフを作成してみました。 もっと長期間にならないとあまり面白くないですが.....カウント開始が10月24日からなので、それ以前はまだありません。また、縦軸の数字は出現回数そのものではありません。 しかしながら、この値は他のキー…

キーワード勝手に追加

トップページの検索窓のすぐ下にキーワード追加窓を入れました。会員登録みたいなめんどくさいことは一切なしです。 調べたいキーワードがある方は、ここから追加してください。 十分なblogエントリがあるワードであれば、そのうち分析結果が上がってくると…

TagCloud

タグクラウド(もどき)を入れてみました...簡単そうに見えてこれだけのためにまた相当苦労しました。 他サービスと同じところを入れることで、他サービスとの違いが見えてくるんじゃないでしょうか。 これで一応、他と同じようなことはできていると主張でき…

SPAM BLOG FILTER

世界で最も多いのは日本語ブログ世界の3分の1以上という「異常な」数値の理由ですが、わたくしが毎日ブログ(特定の分野ではなく完全無作為に)を読んでいる感覚では、 過半数以上、わたくしは90%超はSPAM であるからだと確信しています。 Ameba blogを蝕むS…

FIT2007

さて、明日は 情報科学技術フォーラム FIT2007 で発表しに名古屋に行きます。 FITは大学などポスターが結構掲示してあることが多くて有名だと思います。 非常に大きなイベントで、色々な分野から多数の方々が参加されます。わたくしの発表内容はここでも何度…

簡易複数文書要約

一応複数文書要約も実装しましたが。 研究用のアルゴリズムではblogに対してはニュース文書よりもさらにうまくいかないので、色々と工夫して研究用ではないアルゴリズムによって まあ何とか一応見れば意味はわかると思うぐらいになったので、表示します。htt…

local multiple alignment text-mining

http://updatenews.sub.jp/strings.php 実際のWeb上のテキストは予想よりもだいぶ整った情報であって、 乱雑な文章に対応した 研究用のアルゴリズムでうまくいかず、仕方がないので 安直で単純な方法にしました。 これでもまだ量が少ないのであまりはっきり…

JCDL2007:Demos

JCDLのデモンストレーションで何か面白そうなものを見ました。http://vue.uit.tufts.edu/ Visual Understanding Environment Anoop Kumar フリーで入手できます。 これを Ciscoとか, その他、割と有名な何か日本の企業でも使っている....そうです とりあえず…

JCDL2007JCDL2007:What are they Thinking? searching For the Mind

このJCDLは開催場所がこれまでほとんど合衆国国内で、参加者もアメリカ人の割合が高いです。 Internet Archive, Google, Microsoft, Yahoo research IBM research などの人が来るのはわかりますが、ロスアラモス研究所の人までも発表してます。 A Practical …

JCDL2007

さて、JCDL2007に参加するため今バンクーバーに来ています。 http://www.jcdl2007.org/日本人はわたくしを入れても10人いるかいないかぐらいですね。 発表は他には奈良先端大、京大と立命館の人だけみたいですねここは華僑の人が多いんですね。 道行く人はは…

(予備知識なし)複数文書類似文字列検出

今話題の言葉(blogでよく使われる、など)をユーザに見せるwebサイトなど、割りと有名なところなどいくつかありますが、 http://d.hatena.ne.jp/hotkeyword http://blog.fc2.com/ http://keyword.livedoor.com/ranking/access_ranking.html http://blog.with2…

Multi-Document Summarization in multilingual

JCDLの論文には、多言語で複数文書要約ができると書いちゃったので、 とりあえず英語でも複数文書要約できることを示せるようにしました。 このリンク先文章は、このニュースに関連する複数の記事を自動的に要約して作成したものです。現在対象のサイトは Ne…

JCDL2007

わたくしの複数文書要約システムがJCDL2007にacceptしてもらえたようです。 short paperで2枚ですが..JCDLは実際どの程度の難易度なんでしょうか? 結構難しいとは聞いていますが.. 採択率不明らしいです。

類似cache

既存情報がどの程度あるのか、数値で表示するようにしました。見出しのリンク先はオリジナル記事じゃなくてキャッシュになってます。 キャッシュの内容は、すでに出ている情報はそのまま残してこの記事で初めて出ている情報を消すようにしています。検索キャ…

はてなダイアリー

hatenaには登録してから、ずっと書いていなかったのですが システムのURLとか色々変えたので、とりあえずもう一回書いておきます。 http://updatenews.sub.jp/Google Newsなどと大体同じようですが、 色々と違うこともあります。