« 2005年12月 | メイン | 2006年04月 »

2006年01月29日

Google、名大に来る

Wordlogue Data
今週の金曜日に名古屋大学で以下の講演会を行います。
僕は前座なので僕の話はあまり重要ではありませんが、その次のグーグルの高林さんの講演は聞く価値が大いにあると思います。
彼はすごくセンスのいい技術者で、テキスト検索Namazuやソースコード検索Gonzuiなど、僕には絶対に思いつかない名前のシステムを続々と作り出し、その筋のには一目置かれている人物です。
彼は、僕が以前に所属していたソニーコンピュータサイエンス研究所というところの研究員をしていたこともあります。
この研究所は少なくとも僕が入社した頃はとても活気があって、わくわくする場所でした。
研究所の一般公開では「ついさっきプロトタイプができました。実はまだデバッグ中です」なんていうシステムをデモしたりしていました。
僕なんか、直前に何日も徹夜してぎりぎりでに見せられる状態にした、なんてことがよくありました。
研究員のみんなが「一所懸命面白いデモをやって訪問者を喜ばせたい」という気持ちで一杯で、機密情報もへったくれもない、という雰囲気でした。
かなり辛かったけど、すごくいい思い出です。
今はどうなっているのか知らないけれど、ソニーって会社自体が今やIT業界ではかなりビハインドな気がするので、その研究所も推して知るべしという感じがします。
それに比べるとアップルって本当にすごい会社だな、と思います。

いやいや、ここで話題にすべきは何と言ってもグーグルです。
以前のエントリーにも書きましたが、グーグルにはとてつもない脅威を感じます。
少なくともWebに関する研究をしているグーグルを無視することはできないでしょう。
これは、人工知能研究者がセマンティックWebのコンセプトにショックを受けるのとは桁が違います。
セマンティックWebのコンセプトはまだすごくいいかげんで、具体性が乏しいからです。

以前に高林さんに言われた「Webに関する研究ってありえないですよ。だって、Webって考えたことがすぐに現実的なものになる世界だから、研究だとか言ってもったいつけないですぐ実験してみればいいんです。その結果、いいものは広まるし、そうでないものは黙殺される。役に立つかどうかよくわからない研究なんかで論文を書いているより、はるかに意義があります」という意味の言葉が未だに僕の胸に突き刺さっています。
確かに彼の言う通りで、僕は現在の状況のうち、特にメタデータや閲覧者によるコンテンツへのタグ付けとその応用に関して、かなり以前から予測してそのための技術を考えてきたのですが、実際に世の中に受け入れられているのは、del.icio.usのようなソーシャルブックマークや、Flickrのような単純なタグ付けの仕組みでした。
僕が考えたものよりはるかに単純なものが十分に機能しているわけです。

だったら、むずかしいことを考えてもったいをつけた研究をやるより、単純でも今できることを早めに世の中に出していく、というアプローチの方が、コンセプトを世の中に広めるという点ではよいような気がしてきます。
グーグルは、すでに高いポテンシャルを持っているにも関わらず、もったいをつけずに、アイディアをどんどん世の中に出していって、誰かにまねされようが一向に構わない(ように見える)、というスタイルをとっているところが、実に驚異的です。

グーグルと張り合ったって勝てそうにないから、Webに関する研究はあきらめよう、と思うが出てきてもおかしくない雰囲気です。
ですが、盛者必衰の理(ことわり)という言葉もありますし、アイディア時間をかけて熟成させればよりよいものになる、という話もありますから、Webの技術革新の速さに振り回されないで、落ち着いて、いい研究をやりましょう。

というわけで、このエントリーを書いたのは、以下の講演会に是非ご参加ください、ということが言いたかったためです(どこが、「というわけ」なのかは気にしないでください)。

Webテクノロジーに関する講演会

日時:200623日()16:00-17:30
場所:名古屋大学IB電子情報館大講義室
参加費無料 事前登録不要
対象者:名古屋大学の情報系の学生

プログラム

16:00-16:30Web2.0Webテクノロジー未来 長尾 確(名古屋大学)

Web2.0という最近の重要キーワードについて解説し、Webテクノロジー未来をいくつかの事例を交えて概観します。

16:30-17:30大規模データ処理を可能にするGoogle技術 高林 哲(グーグル

今日の検索エンジンはコンピュータサイエンスの様々な分野の技術の集大成として構築されています。
膨大な文書を対象として高速かつ高品質な検索を提供するためには、コンピュータアーキテクチャや分散システムなどの低いレイヤのシステムから、情報検索、機械学習、データマイニング、ユーザインタフェースといった応用分野におよぶ、幅広い領域の技術が求められます。
本講演ではWebの規模に対応するために私たちが構築してきたスケーラブルなシステムについて紹介します。
まず、データセンター設計上の課題と私たちの取り組みについて説明し、続いて、並列データ解析のためのプログラミングモデルとプログラミング言語について述べます。
最後に大量のデータを活用したアプリケーション紹介を行います。

講演者略歴:

長尾 確(ながお かたし)
日本アイ・ビー・エム東京基礎研究所、ソニーコンピュータサイエンス研究所を経て、現在、名古屋大学情報メディア教育センター教授。

高林 哲(たかばやし さとる)
2004年に奈良先端科学技術大学院大学情報科学研究科博士後期課程を修了。
現在、グーグル株式会社ソフトウェアエンジニア。
IPA未踏ソフトウェア創造事業においてスーパークリエータとして認定される。
テキスト検索システムNamazu作者としても有名。

投稿者 nagao : 19:36 | コメント (710) | トラックバック

2006年01月27日

教育者のプライド

Wordlogue Data
人間というのは不思議なもので、「自分はちゃんとしている、大丈夫だ」と思っていても、他人からのたった一言でがぐらついてしまうことがあるようだ。
僕にもそんな経験がある。
以前に、学生からメールで、「どうしてあなたはそんなに高圧的なんですか」という意味のことを言われた。
いろいろとややこしい文脈があるのだが、要するに、僕の「○○しろ」という言い方が気に入らないらしい。
これは命令調ではあるが「高圧的」と言われるほど強い口調で言ったのではない(まあ、その学生がそう感じたなら仕方がないが、こちらにはそのつもりがないのだから言いがかりとしか思えない)。
確かに、時間が足りなくて背景や理由を十分に説明できてないときもあるが、命令調で指示を出すのは普段からしていることで、別に何の問題も感じていなかった。
だから、「高圧的」だと言われたのは少なからずショックだった。
この学生は、「親父にもぶたれたことないのに」(by アムロ・レイ)的なナイーブな輩だろうか。
だとしたら、僕も「殴られもせずに一人前になったものがどこにいるのか」(by ブライト・ノア)みたいな指導的態度を取らないといけないのだろうか(ちなみに、僕はその学生を殴ったわけではありません)。
僕は以前のエントリーで「学生と僕との違いは、経験の違いに過ぎない(ゆえに、いくつかの経験を経てその差は縮まっていく)」と書いたのだが、それは人間としての内容の違いのことを言っているのであり、それとは別の次元にの間の社会的な関係が存在する。
大学生にもなって「自分自分の指導教員の立場の差」を理解できないのだろうか(その「立場の差」を利用して、自分に不当に抑圧をかけている、と思われたのならさらにまずいが)。
いや、この学生がそんなに頭の悪い奴とは思えない。
少なくとも僕が学生のときにはあった「(相手によって)言っていいことと悪いことの区別」が今はなくなってしまったのではないだろうか。
僕は(少なくとも今は)感情にまかせて口から飛び出しそうになる多くの言葉を飲み込む努力をしている。
だから、僕の言っていることは、怒りの度合いとしては10分の1くらいに薄められた言葉である(たぶん)。
僕が遠い昔、激昂にかられて母親に言った「おまえなんかにの気持ちがわかるか」という(ありがちな)言葉をふと思い出した。
自分の息子に「おまえ」と言われた母親の気持ちをその当時は考えもしなかった。
明らかに、親子という社会的関係を踏み外した言葉だ、と今は思う。
僕は、教育者というのはどんな逆境におかれても、教師としてのプライドを維持していなければいけないものだと思っている。
プライドのない教師に教育される子供たちはとても不幸だと思う。
明らかな不正によって断罪され、記者会見等で謝罪をする教育者や経営者がいるけれど、こんな連中に指導された学生や部下はさぞ情けない思いをしているだろう。
「社員は悪くはありませんから」と言って泣いている、1997年に経営破綻によって廃業した山一證券の社長テレビで見て、そんなことを言ってかばってもらうありがたさより、そんな姿をテレビでさらしている社長を見る情けなさの方が、社員にとってはるかに大きいのではないか、と思ったものである。
僕は会社では上司に恵まれなかったから、上の人間の不当な抑圧や無能さに涙が出るほどくやしい思いをしたことが何度もある。
しかし、それでも彼らに逆らったことはないし、口答えをしたこともない(たぶん)。
ただ自分の無力さを痛感し、それを補うために努力をしようと思ったものである。
今では、よい経験をさせてもらったと思っている。
やはり、「殴られたことのない人間が一人前になることはない」のである(今の僕が一人前かという議論はなしね)。
僕は、まともな教育とか指導というものは、馴れ合いの状態では絶対にできないと思っている。
だから、僕は学生とは一定の距離を置いているし、コミュニケーションにおいてある種の抑圧が発生するのは当然のことだと思っている。
抑圧というのは気持ちの良いものではないから、与えられた方がストレスを感じるのはよくわかる。
だけど、アカハラだパワハラだとかいう言葉に踊らされて、学生や部下に妙に迎合した態度を取るのはかなりまずいと思う。
明らかに不当なものでない限り、そういうプレッシャーに耐えることで学ぶことは必ずあるだろう。
それらにいちいち腹を立て、「なんであんたはそんなに高圧的なんだ」と言ってみたところで損をするのは自分である。
僕は学生たちに「君たちがこれから直面する社会は不条理さに満ち満ちている。だからそんな不条理さの中でも自分を見失わず、無数の抑圧に耐えていけるだけの精神力を身に付けて欲しい」と言いたいのだけど、さすがにそんな恥ずかしい台詞は口にできそうにない(と言いながら、ここに書いているのもあれだけど)。
たぶん、まだまだこれからも気持ちがぐらつくようなことを言われたりされたりするのだろう。
でも、断固として迎合せず、学生に適度の抑圧を与え続けるのも教育者の仕事なのである。

投稿者 nagao : 00:26 | コメント (396) | トラックバック

2006年01月22日

ワードローグという試み(その5)

Wordlogue Data
オントロジーが構築できれば、情報の意味を厳密に記述できるので、いろいろと役に立つことは間違いないですが、問題は、この構築と保守(変化に対応して修正し続けること)のコストが非常に高いことです。
そこで、ワードローグ、ソーシャルブックマーク、有名なWordNetのようなオンライン辞書などを連結していく作業によって、副産物的にオントロジーを作ってしまいたいと思うわけです。
オントロジーは正攻法で作ろうと思ったら気が遠くなりそうですが、いろいろやっていたらいつのまにかできていた、という話にすればあまり無理はないような気がします。
もちろん、そんなものが偶然できるとは思えませんので、データが集まれば集まるほど、言葉に隠れている概念のマップが具体化されていく仕組みをあらかじめ作っておかなければなりません。
また、データが集まるためには、その作成者にとっての明確なメリットがなければなりません。
まだありがたみがよくわからないと思いますが、現在のソーシャルブックマークタグ以上のことがワードローグを使ってできるようになります。
たとえば、大量のワードローグを連結したネットワークに基づいて、より正確な語彙の分布図が描けるでしょう。
これによって、日本中でよく使われている(ただし、ブログの中で)言葉やそれに関連する概念が何なのかよくわかるようになります。
それは、単に検索キーワードをかき集めてもわかることではありません。
なぜなら、誰かが調べたいと思った言葉と、誰かが実際に書いている言葉では、後者の方がの考えをよく表していると思われますし、さらに、ある言葉が暗黙的に参照している言葉(あるいは概念)などは、検索の履歴を眺めてみてもわかるものではありません。
つまり、現実をより詳細に描写する手段として、ワードローグおよびそれによって描かれるマップが使われるようになるでしょう。
これからワードローグのさまざまな使い方について考えていきます。
使いようによっては、かなり面白いことができるようになるでしょう。
ちなみに、誰からも質問がありませんでしたが、グラフのバーのは、ソーシャルブックマークに10個以上の記事が登録されているタグと一致する場合に緑、エントリー内の出現・被参照頻度が5以上の場合に赤、それ以外は青になっています。

投稿者 nagao : 02:35 | コメント (203) | トラックバック

2006年01月21日

ワードローグという試み(その4)

Wordlogue Data
さて、ワードローグには次のような特徴とそれを利用した応用があります。
ワードローグは、それ自身一種のコンテンツと考えることもできますが、あくまでブログエントリーのメタデータという位置づけです。
また、それは単純な構造であるために、その足し算や引き算が容易です。
足し算とは、複数のコンテンツを結合して一つにしたときに、一つ一つに関するワードローグを足し合わせたものは、合成されたコンテンツのワードローグになっているということです。
たとえば、の各章のワードローグを足し合わせると、全体のそれになるということです。
このようにメタデータ同士の演算を定義できるでしょう。
引き算に関しては、少し解釈が必要ですが、コンテンツの差分のワードローグは、それらの引き算によって計算できるということです。
ただし、コンテンツの差分とは、一方で語られていて、他方で語られていない内容とは限りません。
差分(重複分も)について厳密に考慮するためには、語と語の間の意味的な関係を考えなければなりません。
語間の関係には、同じような概念や事象を表しているという類義関係と、一方が他方の抽象化になっているという階層関係、さらに一方の表す概念に他方の表す概念が意味を追加・補足・限定する依存関係などがあります。
このような語間の関係を明確に定義することで、ワードローグにおけるメタデータ演算もより厳密なものになります。
そして、この作業の延長線上にオントロジーの構築という話があります。

投稿者 nagao : 20:58 | コメント (193) | トラックバック

2006年01月18日

ワードローグという試み(その3)

Wordlogue Data
言語的アノテーションは、いわゆるフォークソノミーと、オントロジーと呼ばれる概念体系の構築の間をつなぐ作業だと言えるでしょう。
その理由は、ただ漠然とキーワードを決める以上の、意味的な操作が必要であり、照応や省略を処理する上で、言語的内容に含まれる抽象的な概念についても多少は考慮する必要があるからです。
ただし、オントロジーの構築のように、そのような概念を明示化して詳細に記述するところまでは要求されませんから、比較的敷居も低く、一般でも十分に作業を行うことができます。
もう少し技術が進めば、言語的アノテーションもさらに簡単なものになるでしょう。
しかし、本質的なことは、人間の介入の必要性はなくならないということです。
それは、言葉の意味の理解というオープンエンデッドな問題が、完全に自動化されることはないからです。
言葉はその成り立ちから見ても、人間記憶に強く依存しています。
人間言葉を発明したときに、に蓄えられた記憶の一部を取り出して外在化(あるいは記号化)させました。
しかし、当然ながら記憶のすべてを外在化させたわけではありません。
その場合、言葉はその使用者の記憶から少し抽象化(あるいは部分化)された文脈を持つことになります。
そして、たくさんの言葉共有することによって、どんどんその抽象度が上がっていきます。
そうなると、実際にその言葉を受け取ったは、抽象化されたその言葉の文脈を自分記憶で好き勝手に補ってしまいます。
そういう、の勝手な補完によって言葉の意味は伝達されていくのです。
ですから、言葉そのものには必ず何か抜け落ちた意味があるわけです。
それを補えるのは、十分な記憶を持つ人間だけですから、言葉の意味の処理を完全に機械に行わせることはできないのです。
記憶が先か言葉の意味が先か、という、にわとり卵論争になってしまいますが。
そういうわけで、言語的アノテーションは、技術の発展や知識の蓄積によって、簡単化されていくと思いますが、いつまでたっても完全に自動化されることはないだろうと思います。
もちろん、厳密さをある程度犠牲にするならば、人間の作業をまったく必要ないようにすることは可能でしょう。

投稿者 nagao : 00:54 | コメント (250) | トラックバック

2006年01月17日

ワードローグという試み(その2)

Wordlogue Data
しかし、出現頻度順に並べた語彙列によって明確になったエントリーの特徴に違和感を感じることもあるでしょう。
ブログの内容を一番よくわかっているのはその書き手だと思いますが、書き手からみて、そのエントリーにおいて間違いなく重要だと思われる語の頻度があまり高くない場合があり得ます。
それは、同じ言葉を何度も使わないことがあるからです。
たとえば、「ワードローグは画期的である。なぜなら、それは単純な頻度以上の情報に基づいているからである。いちいち説明しなくても、使ってみればよくわかる。」という文章を考えてみましょう。
ここで「ワードローグ」は重要な語ですが、1度しか現れません。
しかし、2文目の「それ」は「ワードローグ」を指しますし、3文目の「使ってみれば」の省略された目的語は、やはり「ワードローグ」です。
つまり、この文章では、この言葉(あるいは、この言葉が指す概念)が少なくとも3回出現していると考えることができます。
このような照応(代名詞等の参照)や省略を考慮するために、形態素解析されたテキストにさらに言語的な情報を加えます。
これを言語的アノテーションと呼びます。
ワードローグでは、この言語的アノテーションを容易に行うためのツールを提供しています。
ちなみに、形態素解析は有名な茶筌(奈良先端大が提供しているフリーソフト)を使っています。
言語的アノテーションを行う仕組みは、形態素解析を行ったり、ソーシャルブックマークタグと照合したりするWebサーバーと、解析結果を操作するWebクライアントに分けられます。
言語的アノテーションは、ちょっとだけ面倒ですが、それ以外は簡単ですよね。
それから、ワードローグはただグラフを作成するだけでなく、その情報を他のに伝達するためのRSSデータも生成します。
いろいろなブログでこのデータを生成して交換すれば、似たようなブログエントリーを見つけたり、大量のテキストコンテンツを瞬時に分類したりすることが可能になるでしょう。

投稿者 nagao : 03:22 | コメント (178) | トラックバック

2006年01月15日

ワードローグという試み(その1)

Wordlogue Data
今回のエントリーから、新しい仕組みを導入します。
ブログのエントリーの内容を大雑把に表現する、複数のキーワードのエントリー内の出現頻度を表す棒グラフを表示します。
これは単純に「同じ言葉が何回出てくるか」ということではなく、その語が表現している概念が同じエントリー内で何回参照されているかということです。
この仕組みをワードローグ(Wordlogue)と呼びます。
この言葉は、個人の語彙力を表すワードローブとログをかけています。
また、ローグには「ことば」という意味があり、モノローグやダイアローグという単語にも現れています。
一般ブログのエントリーは、カテゴリーによって分類されています。
しかし、カテゴリーがエントリーの内容を適切に表しているとは限りません(このブログも然り)。
あるブログを読むかどうか決めるときに、その概要があると便利ですが、(まともな)概要の自動生成は一般に非常に困難です。
概要生成の本質的なむずかしさは重要キーワードを見つけることよりも、文章を生成する部分にあります。
そこで、文生成はとりあえず今後の課題として、重要キーワードを比較的容易に見つける方法を考えてみました。
それはブログエントリーのテキストに含まれる語を頻度順に並べるというものです。
このとき、助詞や接続詞などのいわゆるストップワードは除外します。
また、最近はソーシャルブックマークのようにブログを含む任意のWebページを分類するキーワード共有するサービスも公開されていますので、それも利用することにします。
つまり、ソーシャルブックマークに登録されたタグと形態素解析によって分割された要素を照合し、照合したタグに関連した記事の数の語の重要の一つの評価基準とします。
形態素解析は、必ずしも書き手の意図通りに文を分割してくれるわけではありませんから、必要以上に分割されてしまった複合語(たとえば、「名古屋大学」が「名古屋」と「大学」に分割されてしまった場合)は、それらが一つの語であることを教えてやります。
そして、テキストから語がすべて抽出されると、それらの出現頻度をカウントし、頻度順に並べて棒グラフを生成します。
こうすると、かなりそのエントリーの特徴がわかってきます。

投稿者 nagao : 14:17 | コメント (50) | トラックバック

リニューアル

こんにちは。
「常に酔っぱらっているんじゃないかという話し方をする(らしい)」長尾です。
ブログのデザインを一新しました。
そのうち、また長い話を書こうと思いますが、
その前にちょっと新しいことをやろうと考えていますので、
ご期待ください。

清水さん、(前のエントリーへの)トラックバックありがとう。
今後ともよろしく。

投稿者 nagao : 05:31