メイン | 2005年09月 »

2005年08月26日

Dashboard Widgetが捨てたもの

かつて(1999年頃)、IBMはXMLの説明をするのに「XMLはe-businessのために必要な最後のピース」という説明をしていた。
e-businessという言葉はすでに死語であるが、まあ、ネットビジネス一般のことであることは想像がつくだろう。

「最後のピース」という言い方は、ジグソーパズルで最後に残った部分を指していて、これがはまると完成する、つまり、ネットビジネスの仕組みはほとんど出来ているのだけど、まだ足りなかったものがある、それがXMLだということである。
何が出来ていたかというと、「TCP/IPによってユニバーサルなコネクティビティが、Webブラウザによってユニバーサルなプレゼンテーションが、さらにJavaによってユニバーサルなプログラミングがもたらされた」のだそうで、「最後に残されたデータのユニバーサル化をもたらすものがXMLである」ということだそうである。

これを聞いたとき、僕はIBMの研究所にいたのだが、正直「うまいこと言うなあ」と思っていた。

しかし、この話には盲点があった。
「ユニバーサルな○○」というのが、そうでないものに比べてよいものである、と思わされてしまったが、実はそうではない場合があるということである。
ちなみに、ここでのユニバーサルとは、汎用的、あるいはプラットフォームへの依存度が小さいという意味である。
また、最近よく言われる「ユニバーサルデザイン」という言葉のユニバーサルは万人向け、つまり、ユーザー(のスキルや特性)への依存度が小さいという意味である。

言われてみればその通りである。
TCP/IPがなければさまざまなOSで動いているマシン同士が通信できず、インターネットも実現しなかった。
Webブラウザがなければ、Web上のコンテンツのそれぞれに応じたビューアが必要になり、マルチモーダルなコンテンツのシームレスな表示が困難であった。
Javaが提供されなければ、プラットフォームを気にしないアプリケーションなど考えることもできなかった。
そして、XMLが提案されなければ、ネット上のさまざまなアプリケーションの相互運用性をきちんと議論することができなかっただろう。

それはそうなのだけど、本当に何でもかんでもユニバーサルでなければならないのだろうか。

その考えを真っ向から否定したものがある。
Mac OS X TigerのDashboardである。
Dashboardとは、デスクトップを2層構造にして、一方をメインタスク(たとえば、メールや書類を書いたり、プログラミングしたり)用に、もう一方をサブタスク(たとえば、辞書を引いたり、日付や時間を見たり、計算や単位の換算をしたり)用にすることで、仕事のやり方にメリハリをつけたものである。
メインタスクとサブタスクは性質が異なるので、同じデスクトップに混在させない方がよい、という発想はよくわかる。
Dashboardは、Windows系OSでも動くKonfabulatorというソフトとほとんど同じものであるが、こういう仕組みはOSの機能の一部として組み込まれている方がよいのではないかと思う。

これは仕事のあり方だけでなく、Webアプリケーションの一つのあるべき姿を見せてくれた。
つまりWebサービス連動型デスクトップアクセサリである。

Dashboard上で動くプログラムはWidgetと呼ばれるが、これは基本的にHTML、CSS、JavaScriptで構成されているにも関わらず、通常のブラウザ上では動かず、Dashboardのみで動く。
また、WidgetはXMLHttpRequestという仕組みで非同期的にWebサーバーと通信して、暗黙的に情報を取得し処理をすることができる(Google Mapsでも同じ仕組みが使われていますね)。
これは、Web技術もXMLも十分に使っているにも関わらず、ユニバーサルなんかじゃない。

僕は、DashboardおよびWidgetはとてもすばらしいと思っている。
それはWebブラウザの持つユニバーサリティを捨て去ったからである。
ある種のWebアプリケーションをユーザーにとってわかりやすく便利なものにするために、Webブラウザの持つユニバーサリティはかえって邪魔だったのである。

たとえば、Wikipediaでトピックを調べるためにWebブラウザを立ち上げて(すでに上がっているなら、新しいウィンドウを開いて)、Wikipediaのトップページを表示して、検索キーワードを入力する(Googleバーに直接入力してもいいけれど)、というのはとても面倒くさい。
それより、Dashboardに切り替え、すでに上がっているWikipedia Widgetにキーワードを入力する、という方がはるかに直感的でわかりやすい。
まあ、この例は、Googleバーに入力した方が、Wikipedia以外の辞典も同時に引けて、より便利じゃないか、と反論されるかも知れないが、ここではWikipedia以外のものはかえって邪魔なので見たくない、という立場だとしよう。


ユーザーインタフェースの認知的考察で有名な認知科学者であるドナルド・ノーマンはこう言っている。
「機械はどんどん多機能で複雑になっているが、人間と機械が関わる部分で本質的に重要なのはsimplification(単純化)である。」
スイス・アーミーナイフみたいにいろんなものが一つになっている道具はダメなのである。
よくできた道具のすばらしい点は、見た瞬間にそれが何をするものであるのか理解でき、触った瞬間にそれがその目的のために最適な形状をしていることが実感できることである。

今の時代、そういうものがとても少なくなったと思う。
多機能のものが単機能のものよりよいと盲目的に思っている人たちが結構いるせいじゃないかと思う。
もちろん、一つのことしかできない道具がどんな場合にもよいと言っているのではない。
デジカメにも音楽プレイヤにもなる携帯電話って、すごく便利だと思っている人は少なくないだろう。
しかし、それは携帯電話の持つ通信機能が、デジカメにも音楽プレイヤにもないよりあったほうが都合がよいと思われるものだからである。
たとえば、音楽を聞きたいときにネットからダウンロードでき、写真を撮ったらすぐ友達にメールで送れるというのは、通信機能があることで可能になった機能である。

お互いにたいして依存関係のない機能を一つに集約したからといって、必ずしも便利になるわけではない。
僕は普段、英和辞典と国語辞典をよく使うけれど、それらが一つのシステム(同じ検索ウィンドウ)になっていると切り替えの手間が増えて面倒くさい。
英和辞典を引いた結果から国語辞典を引く場合があるのではないかと思うかも知れないが僕はそんなことは今までしたことがない。
英和辞典と国語辞典は使う状況が異なるので依存関係がほとんどないのである。

機能の豊富さに目を奪われてしまうのは最初のうちだけで、使い込んでいくうちに必要のないことがわかると、その機能は次第に使わなくなっていくだろう。
でも、多機能でも何を使って何を使わないかはユーザーの自由だから、初めから単機能にしてユーザーの自由を奪うことはない、という考え方もあるだろう。
ワープロやメーラーのようなメインタスク用のツールなら、その方がよいかも知れないけれど、サブタスク用のツールはそれではいけないと思う。
サブタスクはその性質上、あまり時間やコストをかけるわけにいかないから、そのためのツールはほとんど前提知識なく使え、習熟の必要があまりないものが望ましい。
何をするためのものかほとんど一目瞭然の単機能ツールがデスクトップ上に整然と並んでいて、ツール(アクセサリウィンドウ)を選ぶことは今何をするかを決めることと同値であるべきである。

実際、Appleの提唱するDashboard Programming Guideには次のようなことが書かれている。
1. Widgetは単機能にすべきである。
その機能が提供する情報だけを一目でわかるように表示すべきである。
2. Widgetは小さめにする。
大きいWidgetは貴重な画面スペースを浪費してしまう。
3. 他のWidgetと区別がつきやすいように特徴的な色を使う。
ただし、コントラストがきつくけばけばした色使いはさける。
4. Widgetの前面には広告を入れない。
広告、ロゴ、コピーライトなどは裏面に表示する。

Webブラウザのような高機能のものはWidgetにはなりえない。
なぜなら、メインタスク的なこと(ブログを書いたり、長めのドキュメントを読んだり)とサブタスク的なこと(辞書を引いたり、RSSフィードでニュース記事の見出しを見たり)が両方できるからだ。
メインタスク用のツールでサブタスクが行えることがまずいのではない。
ただDashboardの思想にはそぐわないのである。

メインタスクとサブタスクを明確に分け、デスクトップを切り替えることで仕事にメリハリをつけるのは、作業の効率を上げるだけでなく記憶の想起にもつながるだろう。
ウィンドウをたくさん開いていてフォーカスをあっちこっち移動していると、ちょっとスクリーンから離れると直前に何をやっていたかわからなくなってしまう。
メインタスクとサブタスクを分けると、思い出すべきはメインタスクだけでよいので、メインタスク用のデスクトップを工夫して仕事の優先度がわかるようにしておけばよい。


XMLやWebのようなインフラのユニバーサリティの話とクライアントアプリケーションが単機能か多機能かという話を混同すべきではない、と言う人がいるかも知れない。

確かにそうだけど、将来はサーバーアプリケーションかクライアントアプリケーションかという区別はもうほとんどなくなると思うし、どこまでがユニバーサルで、どこからがスペシャルか、なんてはっきりした境界線もなくなっていくと思う。
あるサービスがユーザーに届く過程で、段階的にスペシャライズ(あるいはパーソナライズ)されていくようになっていくのではないかと思う。
ユーザーが直接目にするときには、その人に本当に必要な機能や内容に特化されているだろう。

この考えをコンテンツの配信において実現したものが、トランスコーディングと呼ばれる技術である。
トランスコーディングはネット上でコンテンツをさまざまなやり方でユーザーに適したものにする。
同じことはサービスに関しても適用可能である。
XMLやWebのユニバーサリティを十分に活かし、Widgetのようなアプリケーションのシンプルさをある程度自動的に段階的に実現するために、トランスコーディングが有効である。

トランスコーディングについて詳しく知りたい人は、手前味噌だけどこれを読んでくれるとうれしい。

投稿者 nagao : 00:48 | トラックバック

2005年08月25日

HyperPhotograph再考

HyperPhotograph(ビデオの例) HyperPhotograph(人の例) 当時の私

昔やっていた仕事で、最近になって、あのとき途中であきらめないで続けてやっていればよかったと思うものがいくつかある。
HyperPhotographもその一つである。
途中でやめてしまった理由はさまざまだが、当時の周囲の人たちの評判が芳しくなかったというのも理由の一つになっている。
僕はその頃(1993年から97年まで)だいたい3ヶ月単位で一つの研究(アイディア出しからデモまで。研究はそれだけでも一応、論文として成果になる)をやっていた。
最初のデモがそれなりに受け、自分の興味も持続している場合は、同様のテーマでもう少し深いことを次の3ヶ月でやるのであるが、最初のデモの評判がよくないと続きをやる気がなかなか起こらなかったのである。

HyperPhotographとは僕が1997年初め頃に作っていたシステムで、デジカメで撮った写真から、自動的にハイパーリンク付きのイメージマップを生成して、写真からそれに写っている人やモノのWebページにジャンプしたり、Webページのテキストに基づいて、写真を検索できるようにした仕組みである。

以下に、その当時に僕が報告書に書いた文章を抜粋して載せる(報告書向けの文章なので、少々文体が硬いがご容赦を)。

個人が自分の経験に即した情報すなわち記憶を適切に管理・検索することができれば、それを将来の行動に有意義に反映できるであろう。
しかし、記憶の正確な想起は一般に非常に困難である。
そこで、人間の記憶の補助となるものとして、個人の行動に関連する実世界情報の蓄積とインデキシング、さらに関連情報への自動リンク付けなどを行うシステムを設計・実装した。

実世界における個人の活動の記録のやり方はさまざまなものが考えられる。
たとえば、Rank Xeroxのミック・ラミングらの開発したForget-me-notのようにUbiquitous Computingの技術を用いて、行動に伴う情報の移動を簡単な記号で代表させ、その痕跡を時間と共に記録するというやり方がある。
これは、かなりシステマティックに実現することができるが、その分インフラストラクチャーの整備に大変な労力を要する。
あるいは、ビデオによって行動記録を残すという手段も考えられるが、たとえタイムコードを使って時間的な検索ができるとしても、内容的な検索を行うためのインデキシングが困難であり、また冗長性もかなり大きい。
一方、写真つまり静止画は、ある意味で実世界の一部をそのままの形で記録していることになり、さらに、写真を撮るということは、実世界における視覚的情報の内、何を覚えておくべきかということを選別する、という記憶の整理ならびに情報フィルタリングの行為に相当すると言える。

そこで、写真を実世界の行動記録とし、写真の内容を解析してインデックスを作成し、さらに関連情報へのリンクを付随させて、写真の検索による記憶想起の補助と、写真内容、すなわち(視覚的)記憶と情報世界との連結を実現することを試みた。
その実現にはデジタルカメラと視覚的タグ(visual tag)、さらにイメージセグメンテーションの技術を用いた。

デジタルカメラで撮った写真を視覚的タグに基づいて解析し、その内容に関連した情報資源へのリンクを自動的に張り、さらにインデックス情報を生成し、日付や時間、それにキーワードで検索できるような仕組みを開発した。
このシステムをHyperPhotographと呼ぶ。

視覚的な情報によって個人の記憶の補助とするための最も単純なやり方は写真を撮ることである。
しかし、ただ写真を撮るだけでは、時間や日付のようなインデックスを使う以外には検索する手段がない。

そこで、内容に関する検索が行えるようにするためには、写真の解析をする必要がある。
従来のイメージコンテンツ検索の枠組みでは、色の濃淡やテクスチャーの特性、それにエッジ検出などで得られた対象の外周の形状などに基づいて検索を行う。
これらは、一般的に内容検索を行うにはまったく不十分な情報である。
できれば、写真に写っている対象を認識して、その名前や関連キーワードで検索したいが、これまでのイメージ処理の枠組みでは、今のところほとんど不可能である。

今回用いた手法は、モノや人に視覚的タグを付けることである(モノの場合は表面あるいはその置いている場所の周辺に貼るラベルとして。人の場合は服に付ける名札として)。
このような手法はすでにいくつかの研究機関で試されている。
バーコードのようなコードを付加されたラベルである視覚的タグは、対象のIDとそのイメージ上の位置や領域を機械的に認識するのに有用である。
ただし、これを用いて実世界の対象と情報とを連結させ、それを記憶の補助とするためには、このタグが十分広く使われていて、多くの人々にとってメリットのあるものでなければならない。
この点は重要であるが、タグが存在することを前提として、その応用について考察し、将来の方向性を模索することにした。

写真上のタグの解析は、まずイメージを2値化して連続した閉じた白い領域を検出してタグの候補とする。
この場合、タグの大きさや向きは任意なので、タグの形(長方形)をヒントとすることしかできない。
しかもそれさえも常に成り立つとは限らない。
そこで、いくつかのヒューリスティックスを使って領域の4つの端点を検出する。
その後、ある辺にコードを読み取る出発点となる印が付いていることを確認すると、その領域はタグであると判断する。
コードは、タグを等分した位置にバーのある場合(1)とない場合(0)でビットパターンを表した単純なものである。
タグの最大ビット数は最初に設定するものとする。
今回の実験で用いたのは、6ビットと10ビットのタグである。

また、タグの誤認識(ビットの読み取りエラーではなく、タグでない領域をタグであると判断すること)は頻繁に起こるので、頑健性を高めるために一つの対象に複数(最低2つ)のタグが付いていることを前提とする。
この複数のタグは対象の領域を認識するためにも役に立つ。
たとえば、本の背表紙の上と下の辺に接するように2つのタグを貼れば、その本(の背表紙)全体の領域がわかることになる。

対象と情報資源を関係付けるために、IDとWebのURLの対応表をあらかじめ用意する。
これは登録サーバーを用意して、検索エンジンなどの結果からURLを登録できるようにする。
誤認識したIDがその表になければ、それを誤りとして取り除くことができる。
システムは、見つかったIDに対応するURLからWebページを参照し、その内容に基づいてインデキシングを行う。
現在は、TITLEタグか、または新たに加えたDESCRIPTIONタグで囲まれた部分をそのままインデックスに登録しているが、将来はWebページ全体を使ったインデキシングを行う予定である。
また、写真撮影の日時や場所も当然インデックスの一部となる。

HyperPhotographは、モノにタグを付けて、自動的に写真とWebページとのリンクを張り、あとで、写真を見ながら、「これは何だっけ?」と思って写っているモノをクリックする(クリック可能な領域にマウスポインタが入るとボタンが浮かび上がる)と、そのページに跳んで、詳細な情報がわかる、というものである。
タグは、その製品を製造あるいは販売している会社によって付けられるだろう。
これは製品とその情報をつなぐ手段として非常に有効だと思う。

さらに、写真撮影時に記録した日付・時間・場所、さらにリンクから得られた内容に基づいてHyperPhotographのインデックスを作り、検索するときに、「いついつのどこどこの何何の写っている写真」という具合に指定すると簡単に探すことができる(これはいくつかの指定を省略しても機能する)。
もちろん、時間や場所はあやふやな場合が多いので、その周辺のものをざっと見て探せる工夫も必要だろう。
このような仕組みによって、記憶の補助としての写真と情報世界とのリンクによる、過去(の自分の経験)と現在(のWeb上の情報)の橋渡し、というのが可能になって、日常生活がより面白くなるのではないか、と思っている。

以上は僕が1996年から97年に考えていたことで、そのときは結構やる気満々であった。
しかし、その後いろいろあって、この研究は最初のプロトタイプ(しかし、ちゃんと動く)を作ってデモしたところで中断し、その後、続きをやることもなかった。

その当時、僕はデジカメのヘビーユーザーで、発売されたばかりの初代のSony CyberShotをいつも持ち歩き、目に付いたものでこれはと思ったものはすぐに写真に撮っていた(美術館内で絵を撮っていたら怒られたこともある)。
そのとき1年ほどアメリカに住んでいたが、周囲の人は僕がデジカメを使っているのを不思議そうに見ていた。
もちろんアメリカにデジカメが全然なかったわけではないが、常に持ち歩いている人なんて僕の周囲には他に一人もいなかった。

僕がその当時見逃していた重要な点は写真を共有するという観点である。
それは、デジカメで気ままに写真を撮って後で記憶の想起に用いるという行為は、あくまでパーソナルなものだと思っていたからだ。
もちろん、友人が写っている写真をWebに置いて共有可能にしたり、その友人にプリントして渡したりすることは普通にやっていたが、一般の人が自分のために撮影した写真をきっかけにコミュニティ的な活動が自然発生する、なんてことはまったく想像していなかった。

だからFlickrなんかを見ると、なるほど、そういう手があったか、と感心させられることしきりである。
もしFlickrが、単にデジタル写真の置き場をWeb上に提供し、サムネイル等で一覧を作成して特定のユーザーが閲覧・ダウンロードするだけのシステムだったとしたら、僕はあまり興味を示さなかった。

Flickrは(これを読んでいる人は当然知っていると思うが)、いわゆるWebアルバムサービスである。
手軽に写真をアップロードでき、写真そのものや写真内の任意のオブジェクト(矩形領域を手動で指定する)にキーワードなどをアノテートでき、複数の写真を、アップロードした日付やキーワード等で簡単に整理でき、SNSのように、アップした写真を見て欲しい人にメールで紹介したり、ブログのエントリーにFlickrへのリンク付きの縮小版の写真を貼り付けたりできる。
写真を中心にして世界が広がっていくという感じがする。

Flickrは、コンテンツに対して、閲覧者がアノテーションを付与することで、コンテンツに意味や価値を与えていく仕組みでもある(実は、これは以前からあるアイディアであり、僕もそれに関していくつかの仕事をしてきた)。
僕は、RSSやAtomのような、プログラムが自動生成するメタデータより、人間が何らかの解釈によって作成するコメントや属性のようなアノテーションの方が重要だと思っている。
ただ、機械が自動生成するメタデータと人間が入力・編集するメタデータは統合されるべきで、そのための仕組みがこれからいろいろ出てくるだろう。

ところで、HyperPhotographのようなアイディアが未だ実用的にならない理由は、以下のようなことではないかと思う。

1. 視覚的タグが思ったほど一般的になっていない。
QRコードのような2次元バーコードはそれなりに普及しているが、依然として、任意の距離から撮影した画像内に含まれる複数のコードを一気にデコードできるような仕組みになっていない。
2. そもそも、視覚的タグはデザインが悪く、製品のラベルや服の模様などに取り入れるのが困難である。
これに関しては、赤外線を当てると可視光に変換して反射する透明な塗料を使った不可視タグ(invisible tag)というのも考えたが、結局アイディアだけで終わった。
3. せっかく解像度の高いデジカメが出てきたのに、ケータイに内蔵の解像度の低いカメラで満足している人が意外に多い気がする。
要するに、撮るという行為が重要なわけね。
4. 写真にタグやコメントを付けるという行為は、ブログを書くのと同様に、やる気のある人なら自分でやるため、機械の力を特に必要としない。
それは、Folksonomyにつながり、群衆パワーによるボトムアップなオントロジー構築という話に関連してくるのだけど、それについては、いつか書こうと思う(正直、コメントはともかく、タグはあまり意味がない気がする)。

まあいろいろあって、その後、僕の興味は写真からビデオに移ってしまった。
今なら、以前はあきらめていた、ビデオの自在な検索と共有による人間(とコミュニティ)の記憶の拡張が実現可能な気がするからである。

投稿者 nagao : 00:17 | コメント (484) | トラックバック

2005年08月24日

Spotlightとオントロジー

経済学者で認知科学者で人工知能研究者のハーバート・サイモン(故人)はこう言っている。
「学問分野は国家と同じように、限定合理性しか持たぬ人間に対して、目標を単純化させ、計算できる形に人々の選択のしかたを変えてしまう必要悪である。」
これは、分類という行為一般に関して言える。

限定合理性というのは、以下のように説明できる。
合理性、つまり「すべての行動は期待効用を最大化するように行われる」(要するに自分にとっていいことが起こる確率が最大になるように行動する)、という性質が、あくまで資源(使える時間やお金やエネルギーなど)によって制限されたものである、というあたりまえの性質のことである。

すべての存在は世界を部分的にしか認知できないのだから、自分が合理的だと思っていても、それは限定合理性に過ぎないのは当然である。

人間の認知的負荷を軽減するために、ものごとを整理したり単純化したりするのはやむを得ないことだと思っているが、それはいいことなのではなく必要悪なのだ。
それは人の考えを硬直化させ、下手をすると間違った方向に誘導したりするからである。

何らかのラベルを付けてものごとを分類することは、短期的に計算を楽にする効果はあるが、その分類に関する文脈や背景がほとんど失われるか、そもそも知らない場合には必ずしも有効ではない、むしろ邪魔だったりする。
メールやファイルをフォルダに分類したときと、その後しばらくして分類の基準や背景を忘れてしまった状況を思い出してみればすぐにわかる。

Mac OS X Tigerに標準で装備された機能の一つであるSpotlightは、検索という手段によって、人間を不毛な分類という行為から解放してくれるものである(Spotlightについて知らない人はぐぐってください)。
これですべての問題が解決したわけではないが(その点についてはいつか述べる)、テクノロジーによって、必要悪だったものが不必要悪(要するにただの悪)に変化する可能性を強く感じる。

ところで、オントロジーにも同じことが言えるのではないだろうか。
オントロジーとは俗っぽい定義をすると、世界の分節化であり体系化である。
その大部分の要素は、いわゆる概念というものの定義(それは複数概念間の関係を含む)である。
一般に、あれとこれは同じもの、という言い方の背後には概念に相当する考えがある。
たとえば、「インターネットって要するにWebのことだよね」、とか、「ブログってオンライン文書データベースと同じじゃん」、なんていう言い方は言葉の定義をしているのではなく(ちなみに定義だとしたら明らかに間違っているが)、それらは同じような概念で捉えられる、と言っているのである。

このような概念を厳密に定義し、むりやり名前をつけて、人間や機械にとって計算できる形にするのが、ここで言うオントロジーというものである。
僕は、これも必要悪の一種だと思っていた。

でも、Spotlightが不毛な分類や整理から人間を解放してくれるなら、同様に、オントロジーの構築と管理という気の遠くなるような作業から人間を解放してやる技術もあり得るのではないかという気がしてくる。

しかし、残念ながら検索だけでは無理だ。
オントロジーは情報を見つけ出すための手段ではなく、推論や推測を機械的に行うための手段だからである。
推論には因果関係(「風が吹くと桶屋が儲かる」みたいなやつ)や依存関係(「貧すれば鈍す」みたいなやつ)のような、ある事象と他の事象の間の何らかの関係が必要であるが、検索だけではその関係を発見することができないからである。

そのようなことを機械的に行う仕組みに学習(正確には機械学習。データマイニングもその一種)というのがある。

さて、検索と学習で「万人が共有できる概念を定義して世界を体系化する」というとてつもない試みから、人間は自由になれるのか。
このあたりのことがわかってきたら論文でも書こうと思う。

投稿者 nagao : 00:01 | コメント (283) | トラックバック

2005年08月23日

会議をコンテンツとする試み

世の中には創造性のかけらもない、つまらない会議がとても多い。
連絡事項だけならメールでやればいいし、合意を求めたいなら長々と会議をする必要なんてなく、時間を限定して議論した上で、多数決でも何でもやればいいのである。
参考となる意見を求めているなら、最初に何にどのような意見が必要なのかリストアップして、メールか紙で配ってくれれば、それなりに何か発言できるのだが、効率を無視した会議は、やるべき当然の準備をせず、ただだらだらと続いていく。
くだらない。実にくだらない。
そんな会議にばかり参加していると、どんどん自分が馬鹿になっていく気がする。

しかし、一方で、新しい考えを見聞きしたり、既存の考えを新しく捉えなおすことができるような有意義な会議もある。
個々人の力を持ち寄ってシナジーを引き起こす会議もあるのである。
そのような会議は、そのときだけでなく、後で思い出してみても、得るものは多いだろう。

よい会議はコンテンツになりうる。
それは、たとえば、座談会の書き起こし文書を読んでみても、単なる解説記事よりも臨場感があって、異なる意見のぶつかりあいなどが読み取れる、等々、立派にコンテンツとして成立していることがわかる。

ちょっと話が違うけれど、Web掲示板「2ちゃんねる」での複数の匿名参加者の投稿を集めた本「電車男」が出版されて、飛ぶように売れている状況は、一つ一つの投稿は取るに足らない雑文でも、ある状況でたくさん集まると、それなりに面白い読み物になるということだろう。
僕はこの本を購入して読もうという気持ちがよくわからないが、(広告業界にとって非常に都合の良い)日本国民総白痴化を着々と進める某テレビ局の制作するドラマの方はつい見てしまっている。
どうでもいいけど、友人を呼ぶときに「○○氏」って呼ぶのは何か気持ち悪いよね(今ほんとにそんな人いるの?)。

閑話休題。

さて、僕のいる研究室では会議をコンテンツとする仕組みについて研究を行っている。
会議といっても正確には研究発表会であり、要するに、研究室のゼミである。
この風景を複数のカメラとマイクで収録し、オンラインで閲覧可能にするのである。

もちろん、会議をコンテンツとする、という試み自体は特に新しいものではない。
そもそも、議事録は会議コンテンツと呼ぶことができるし、オンラインミーティングのログを取れば、それも会議コンテンツとなる。
同様に、テレビ会議の映像と音声を保存しておいて、見直せるようにすれば、立派にコンテンツとすることができる。

では、会議をコンテンツとすることの利点は何だろうか。
それは、繰り返し閲覧(視聴)して、内容をよく理解することができる点、検索や要約等のコンテンツ技術を適用できる点、さらに、テキストマイニング等の技術を使ってコンテンツから何らかの知識を発見できるかも知れない点である。

僕らは、オフラインの(つまり対面式の)会議風景を記録するだけではなくて、できるだけ多くのメタデータを会議中に作成する仕組みを開発し実践している。
この場合のメタデータには、発表者の用いたスライドの内容とそれをスクリーンに表示した時間、発言者のIDとその発言時間、発言間の関係(前の発言を受けているかどうか。受けている場合は、肯定的か否定的か、など)、発言内容に含まれるキーワード、などが含まれる。
このうち、発言内容のキーワードは書記が入力するのだが、それ以外は自動的に取得している。
そのためのデバイスも作った。
それは赤外線信号を発信する札型のデバイスである。
発言者は2種類の札のどちらかを選んで、真上に掲げてから発言を開始するのである(このデバイスの使い勝手は賛否両論ある)。
札から発信された信号はサーバーに伝わり、発言者のIDと発言タイプ、開始時間を記録し、同時に受光器の位置から発言者の位置を調べ、可動式のカメラをその人に向ける。

このメタデータと会議風景の映像と音声によって、かなり効率よく会議内容と状況を再現することができる。
また、議論が活発でうまく会議が進行しているかどうかはメタデータを調べるだけで、だいたい知ることができる。
定量的な評価はまだ困難であるが、メタデータのさまざまな特性を調べることで、その会議のうまくいっている部分とそうでない部分を、ある程度自動的に抽出することができるようになるだろう。

これをうまく使うと、会議からさまざまな知識が獲得できるだろう。
たとえば、ある提案に関する参加者の意見の違いから、その提案の持つ多様な側面が推論されたり、異なる会議で似たような質問が繰り返されたときに、その回答と合わせたFAQが作成されたり、議論が発散した場合は、その元になった発言が何か新しいアイディアを含んでいるかも知れないので、ブレインストーミングのネタとして利用されたりする。
会議は人間活動の中でも特に頭脳労働的側面が強いので、その内容を機械によって利用可能にすることで、人間の創造性を強化できることはほぼ間違いがないだろう。

もちろん、会議メタデータは、会議コンテンツを効率よく参照するためのガイドとしても利用できる。

理想的な会議とは、多様な意見が自発的に出され、参加者がみな創造的で、ある目的に向って着実に前進するものであるだろう。
そんな会議がいつもいつもできるわけではないだろうから、そういうまれにうまくいった会議を何度も参照することによって参加者の会議に対するスキルを向上させることができるだろう。

最近は、うまい会議のためのノウハウ本などがいろいろ出ているが、他人が参加して非常にうまくいったときの会議を参考にするより、自分が参加した会議のうまくいったときとそうでなかったときの比較をして、自分や他の参加者がどういうことをしたときが、よい結果につながったのかを考える方がずっとわかりやすく、また、ためになるだろう。
つまり、自分やよく知っている他人の行為を客観的に吟味する手段が必要なのである。
それは、スポーツと同様である。

8月13日の日経新聞によると、「ある意見の次の発言は直前の発言への反論が多い。ゆえにその意見を通したい場合は、その発言の直後に肯定的なことを続けて発言すればよい」、「周囲の雰囲気が一つの方向へ盛り上がっていると、たとえその流れに否定的な人でもその流れに乗りやすくなる」、「弁当やケーキ、コーヒーなどを飲み食いしているときは心理的に説得されやすくなる。ただし好きなものでなければ効果は薄い。ゆえに、説得したい相手の好物を調べて、会議の休憩中にでも食べられるようにすればよい」のだそうである。

一つめの仮説はちょっと疑わしいが、人は肯定的な意見より否定的な意見を言うことの方が多い、つまり、ほめるよりけなす方が得意、だという、一般的な傾向なのではないだろうか。
また、二つめの仮説は、多くの参加者が賛同している(と思われる)意見に反対するのはコストがかかるため(反対するだけでなく他の参加者を納得させられなければ発言する意味がない)反対意見を述べることを躊躇し、また、会議の流れを阻害することで時間が長引くことを恐れるからではないだろうか。
さらに、三つめの仮説は、人間はおなかがすいていると(特に、糖分が足りないと)いらいらしてくるから、他人の意見につい反対してしまいがちであるが、何か食べているとそうでもない、という、これも人間の一般的な特性なのではないだろうか。

いずれにせよ、こんな仮説を信じて実践していっても、そうそう、うまい会議などできるわけではない。
それより、うまくいった会議の状況とそうでなかった会議の状況を比較して問題点を見い出して、改善していった方がよほど建設的である。
そのためにも会議コンテンツは大いに貢献することだろう。

投稿者 nagao : 00:59 | コメント (204) | トラックバック

2005年08月22日

体験メディアとプライバシー

これは、ブログのおかげで特に顕著になった現象のような気がすることだけど、不特定多数の人が目にするネット上に、きわめて個人的で他人には割とどうでもいいことを日記として書いているのを見るにつけ、人の自己顕示欲の強さを感じている(この文章も似たようなものかも知れないけれど)。

「その日にやったこと」をつらつら書いている人がいて、他人事ながら「この人は何を考えて、こういうものを書いているのだろうか」などと思ったりする。

まあ、それもメッセージだと言うのならそれでもいいのだけど、ならもうすこし背景などを書いて、それなりの物語にでもして欲しいものである(過去の日記から続けて読めば、物語になっているのかも知れないけれど)。

プライバシーを公開することで得られる、ゆるいつながり感みたいなものがうれしい人もいるかも知れない。
とにかく、(一部の)プライバシーのネット開示は、通常のコミュニケーションがどんどんぎこちなくなってきた人間社会を多少なりとも楽しくする効果があるのだろう。

余談であるが、ある大学に非常勤講師として呼ばれた企業の人が講義のため教室に入ったところ、そこにいる学生の誰からも挨拶(「おはようございます」的な簡単なやつ)がなかったことを異常だと思って、大学の担当者に注意した、という話を聞いた。
その結果、多少の改善がなされたそうである。
おそらく、しばらくして元に戻ったと思うけれど。
僕は講義の冒頭で挨拶をするようにしているが、僕が挨拶する前に、学生から自発的に挨拶をされたことは未だかつてない。
その程度の挨拶すらまともにできない人たちにまともなコミュニケーションなどできるはずがない。

閑話休題。

さて、オンライン日記と関連して、人間の体験(の記録)をほぼ自動的にコンピュータに取り込んで、オンラインで検索・閲覧・共有を可能にしようという研究が比較的頻繁に行われるようになってきた。
この仕組みによって生成されるデータを体験メディアあるいは体験コンテンツと呼んでいる。

東大のライフログと呼ばれる研究や、ATRの体験キャプチャと呼ばれる研究は、人間の行動を詳細に記録して、時間や場所による検索を可能にして、自分の記憶の想起や他者の行動分析に使おうとするものである。
環境に埋め込まれたカメラやマイク、また個人が携帯する(あるいは、装着する)カメラやマイクで人間の行動風景を記録するのである。
これらの研究は、いかに詳細に行動記録を取るかということがメインで、それをどう使うかという点で見るべきものがあまりない。

しかし、行動を詳細に記録することで初めて可能になることはいろいろあるだろう。
一番分かりやすい例は「犯罪の防止」である。

「今、私はあなたの顔と声を記録しています。私に危害が加えられた場合は、この映像が自動的に警察に送られるようになっています」って宣言すれば、暴力事件は軽減できるのではないだろうか。
また、環境設置型のカメラに犯罪抑制効果があるのはおそらく間違いないと思う(街中でいつのまにか自分の行動が撮られているのはあまり気分のよいものではないが)。

それはよいとして、もう少しポジティブに役に立つ使い方があるだろう。
その一つが体験をコンテンツとして利用することである。

たとえば、Flickrは写真の共有によって、体験の共有ができる。
それによって、自らの体験にさらなる意味づけをすることができる。

以前にここに書いた、知的な乗り物ATも体験を共有するツールとなる。
ATには、無線サーバー内蔵のカメラが装着されており、映像と音声を配信することができる。
ATは移動しながら、周囲の風景を撮影するだけでなく、ATを降りた人間を自動的に追尾して、その人のやっていることを撮影したりすることもできる。
さらに、面白いことに、ATは人間の行動の記録を撮ると同時に、自らの持つさまざまな文脈情報を一緒に記録するので、時間や速度や位置や方向はもちろん、移動軌跡や人間との距離や周囲の移動体に関する情報まで行動記録に含めることができる。
また、この情報に基づいて、ほぼ同じような行動(移動)を再現できる。
つまり、以前に来たことのある場所かどうか、すぐにわかるだけでなく、そのときに、どういう経路でどの場所にどのくらいの間いてどちらの方角を向いていたか、などを再現できるのである。

体験共有は長い時間を越えて行われることもある。
ある作家がある場所を訪れて何かを感じ小説を書いたその場所に、その作家の死後百年後に訪れて、同じような状況を再現し(もちろん風景は変わっているだろうけど)、同じように感慨にふける、ということが可能になるだろう。
あの有名な作品はここに来たことがきっかけになった、などの豆知識があると、さらに面白さが増すことだろう。

体験コンテンツは、その原体験者がどのような生涯を送り、社会に何をなしたか、によってより多くの価値を持つことになるだろう。

さて、もう一つ考えなければならないことは、もちろん、プライバシーの問題である。

個人の体験記録を他人が閲覧可能にすることは、言うまでもなく、プライバシーの開示である。
しかし、開示する側が、内容や閲覧可能者を制限できるようにすることで、被害や不利益を最小限にすることができるだろう。
これは、Flickrのような写真による体験共有システムと同様である。

しかし、他人の体験記録中にたまたま撮られてしまった人のプライバシーはどうなるのか。
これは、防犯用の環境設置型カメラに撮られてしまった人のプライバシーの扱いとは異なるだろう。
個人が撮影する体験記録は、他人に見せることを想定して記録を撮っているからだ。

僕らは、写真やビデオに撮られた人が、それらのコンテンツがネット上で公開されているかどうかを知るための仕組みを考えている。
その仕組みによって、自分がいつどのカメラで撮られていて、それがどの程度自分のプライバシーを侵害しているかを確認することができる。
その結果、公開を差し止める(あるいは自分の映像や音声にエフェクトをかけて、誰だかわからないようにする)ことができるようになるだろう。
芸能人なんかは、毎日その手のデータをチェックしないといけなくなるかも。
あるいは、大物政治家などが、よからぬ行いをしているところが誰かの体験コンテンツに収められてしまったとして、その撮影者にいろいろと圧力をかけてくるだろうが、もし、その人がジャーナリストを目指しているならば、そんな圧力に屈してはいけない(何かちょっと矛盾したことを書いている気がする。ま、いいか)。

その仕組みのためには、現在のカメラではダメで、ちょっと細工をしなければならないのだけど、盗撮等を防止するためとか何とかもっともらしい理由をつけて、その仕掛けのないカメラは販売できないようにすればよいだろう。

そういえば、ソニーのビデオカメラにNightShotと呼ばれる、近赤外線による暗視装置がついていて、それを使うと白っぽい服が透けて撮影できるとかいう話が昔あった。
この会社は犯罪を助長するのか、と思ったが(当時、ソニーの研究所にいたので、複雑な気分だった)、案の定、このカメラは販売禁止になった(たぶん)。

体験共有とプライバシー保護は表裏一体の問題である。
日記を公開している人は、それを共有することの意義、あるいは、プライバシーを開示することの意義を、ほんのちょっとでよいから考えてみるとよいと思う。

未だにこんな宿題が出されているかどうか知らないが、夏休みの日記を書き忘れた小学生は、宿題を出した教師にこう言えばいいのである。
「もちろん、日記は毎日つけました。でも、これはプライバシーですので、残念ながら先生にお見せすることはできません。」
僕ならそんなまぬけな宿題は出さないけれど。

投稿者 nagao : 00:07 | トラックバック

2005年08月21日

オンライン辞典の未来

僕のいる研究室では、「デジタル認知科学辞典」という辞典を作っている。
「認知科学」っていう分野そのものは、あまり好きじゃないのだが、「認知科学」がその周辺分野(「哲学」や「心理学」や「生理学」や「言語学」や「社会学」や「神経科学」など。「コンピュータサイエンス」や「人工知能」も含む)と密接に結び付いていて、辞典を作ろうとすると、自然にそれら周辺の話題を含むことになるので、ちょっとした雑学辞典になっている点が面白い。
たとえば、心理学用語なんてほとんど知らないから、ただ辞典をながめているだけでも結構勉強になる(雑学辞典という点ではWikipediaもそうなのだけど、あれをながめていてもあまり賢くならない気がする)。

認知科学辞典はまず2002年に書籍として発行されたが、紙の辞典では検索が面倒なので電子化しようという、ごく当然の話になって、そのための具体的な作業を僕が担当することになったのである。
何でそんなことを引き受けたかというと、これをきっかけに新しいオンライン辞典を作ってみたいと思ったからである。

現在のところ、CD-ROM版(これも僕のところで作った)が出版されているが、オンライン版は(一応できているのだけど)まだ公開されていない。

僕は凝り性なので、辞典に誤字や表記の不統一等のミスが一つでもあると、つい全項目見直して修正しようとしてしまうが、これがまた大変根気のいる仕事なのである。
たかだか4000程度の項目数で、辞典の規模としてはあまり大きくないのだか(ちなみに、広辞苑第5版の項目数は23万だそうである)、誤字や数式の間違いや表記のゆれなどを細かくチェックしていると、うんざりするくらい手間がかかる。
だいたい、専門家が書いているわりに、読んでもよくわからない項目が結構ある(でも、さすがに、文章を勝手に直したりはしない)。

言葉は生ものだから、辞典は人間の手によって常に変化していかなければならない。
辞典のような、人手で編集された知識は、自動的に変わっていくことはない。
将来、知識獲得の技術が進んでも、辞典を自動生成することは当分の間はできないだろう。
そもそも、辞典が機械的に作れるのなら、人々が疑問に思った言葉の説明をオンデマンドに生成することが可能になるだろうから、まとまった辞典などは必要なくなってしまうだろう。
しかし、僕はあと100年くらいの間にはそういう時代は来ないと思っている。

歴史書が、さまざまな歴史的事象に対する歴史家の多様な解釈から生まれるように、辞典もさまざまな言葉の意味をその言葉が使われた時代背景を考慮して多面的に解釈した上で作られるわけだから、今のところ人間以外にはとてもできそうにない作業である。

では、この場合、機械がやるべきことは何かというと、僕は、人間が行うべき創作活動を可能な限り支援することだと思っている。
ここで言う人間のやるべき創作活動とは、辞典(の項目)を執筆することである。

なぜ辞典を書くべきかというと、言葉を使うためのけじめみたいなもので、ろくにわかっていない言葉をあいまいなままに使うより、辞典を書く・読むことで言葉に何かはっきりしたものを与えてから使ったほうがよいのではないか、と思うからである。

「言葉を大事に使いなさい。そうすれば、ただ沈黙しているより、多くのことをより正確に伝えられるのだから」というのは、僕の好きな小説の主人公(正確には複数の主人公の一人)のせりふ(一部改変)である。
自分の使う言葉には責任を持って、大事に使うべきなのである。
もちろん、そのために辞典が必須なわけではないが、辞典を書くという行為はそれに貢献すると思う。

人は辞典を読んで、言葉に、よりはっきりした輪郭を与えて、それを使う。
言葉の背景となる文脈を理解して、その時点での言葉のスナップショットを描写するのである。


さて、検索以外に、僕がデジタル認知科学辞典を題材にして実現しようとしていることの一つは、辞典の編集や構造化をオンラインで比較的簡単に行う仕組みである。
これは、インターネットでつながれた多くの人たちの知恵と力を合わせて、言葉に関する知識のコンテンツと体系を、できるだけ少ない労力で作っていけるような仕組みを作ろうということだ。
この仕組みは、当然ながら、認知科学辞典以外のさまざまな辞典に対しても適用可能になるだろう。

これと、いわゆるFolksonomyような民衆パワーによる語彙の体系化との違いがどこにあるかというと、情報を分類・整理するための適当な単語を決めましょうという話ではなくて、用語の持つ文脈を表現可能な範囲で明確にしましょう、という話である。
この場合の用語の文脈には、分野や関連語・同義語、その解説文に含まれる特徴的な言葉、代表的な文献、解説文の執筆者のプロフィールなどが含まれる。

僕らの作っているシステムでは、辞典の項目への加筆修正や、注釈の付与、他の項目へのリンク付けをオンラインでできるようになっている。
さらに、不特定多数の人に内容をレビューしてもらい、説明が不備な部分を指摘してもらったり、新たに説明が必要な項目を挙げてもらったりすることも考えている。
「この人にこの項目を書いてもらいたい」というリクエストが出せるようにもしようと思っている。

やはり、辞典をより有益なものにするためには、その用語が使われる分野の専門家である書き手と、その読み手の間のコミュニケーションは不可欠であろう。

また、辞典は言葉のさまざまな側面を観察するための有益なツールである。
僕らの作っている辞典によって、意味的には似ているが異なる表現がなされている言葉や、言葉としては似ているが意味が異なり誤解されやすいものなどを自動的に発見する仕組みが実現できるだろう。
辞典そのものが、辞典作成を機械的に支援する仕組みになっている、というものにしていきたいと思う。

これからの辞典は、限られた専門家のみによって編纂されるような特別のものではなく、デジタル化された、これまでの辞典を、不特定多数の自発的な努力によって、その時代に合った内容に作り変えていくような、より日常的なものになっていくと思う。

多くの人間が小さな努力を積み重ねて、人類共有の知識を紡ぎ出していく。そんな新しくて大きな流れが生まれることを、僕は期待してやまない。

投稿者 nagao : 04:04 | コメント (9) | トラックバック

2005年08月13日

Semantic Webはここがダメ

2002年にJapan Prizeという賞(みんな知らないでしょう)の受賞記念懇談会とかいうのに呼ばれたときに、受賞者のティム・バーナーズ=リーに会った。
これを読んでいる人で、この人を知らない人はいないと思うけど、一応説明すると、彼はWorld Wide Webの発明者であり、Semantic Webの提唱者である。

そのとき、僕は彼にこう言った(向こうは覚えていないだろうけど)。
「あなたが(Semantic Webで)やろうとしていることは、かつてAI(人工知能)がやろうとしたこととまったく同じだ。結局AIの試みは成功していない。なぜ今回は成功すると思えるのか」

彼の返事はつまらないものだった。
「Semantic WebはAIではない。論理的に整合な知識表現を作ろうというのではない。もっと単純な話で、Webを今より機械が扱いやすいものにするのが目的だ。それに、かつてできなかったことが今はできる。それは、Webにはきわめて多くの貢献者(contributor)が世界中にいるからだ」

僕は続けた。
「だとしたら、Semanticという言葉を使うべきではない。それは人に誤解されやすい(misleading)言葉だからだ。機械が処理できる(machine-processable)ということと、機械が理解できる(machine-understandable)ということを混同させてはいけない。機械の都合に合わせたWebのフレームワークを決めるのは結構だが、人間が作り出すコンテンツの意味を機械が理解して知識とするための仕組みを扱う必要があるだろう。AI研究はそのための重要なヒントになる」

すると彼はこう言った。
「私はコンテンツそのものの問題を扱うつもりはない。あくまで標準的なフォーマットを決めるだけだ。コンテンツ固有の問題は君がやればいい」

僕は言われなくても自分のやるべきことがわかっていたが、何だかとてもがっかりした。
自分にとって新しい発見が何もなかったからだ。
Webがあったって、むずかしい問題は相変わらずむずかしいのであって、機械が処理できるWebであればよいなら、人間にとってわかりやすくする必要なんてないから、専用のスキーマ言語で定義された表かリスト形式のデータを作ってWebに載せていけばよいのである。
しかし、機械的な推論が可能な知識をグローバルに作っていきたい、ということなら話はだいぶ違う。
これは標準フォーマットを決めればよい、ということではないからだ。
1980年代のAI研究が示したことは、ユニバーサルな知識表現など存在しない、ということだ。
つまり、どんな知識を表現するにも適した標準フォーマットなどありはしない。

ところで、最近ではSemantic Web(以下ではくどいのでSWと略す)のコンセプトはかなり矮小化されて受け入れられている気がする。
たとえば、ブログやSNSはRDFベースのRSSやFOAFを使っているので、SWの思想に基づいているとか、SNSで、SWで言うところのWebのtrust(信用性)が実装できるとか、SWで本質的なのはタグやカテゴリーなどのメタ情報である、とか。

それらを否定する気はさらさらないが、その程度のものでよいなら、ますますSemanticなんて言葉を使うのはおかしいと思う。

Semanticという言葉にこだわるのは、僕が自然言語処理の研究者(のはしくれ)だからだ。
コンテンツの意味(semantics)を扱うということは、必然的に人間の言葉の意味を扱うということになる。
自然言語処理は極論すると「人間の言葉の意味を扱うための理論と技術の総体」である。

言葉の意味なんて機械にわかるはずがない、と思う人がいるかも知れない。
しかし、この問題を何とかして乗り越えないと、情報化社会が理想とする世界はほとんど実現できない。

ティム・バーナーズ=リーの提唱するSWのSemanticとは言葉の意味を扱うということではない。
SWがダメな点はまさにそこにある。
SWは、要するにあたりまえのことをあたりまえにやろうとしているだけで、その先に驚くような未来が待っている、というわけではない。
もちろん、あたりまえのことをあたりまえにやることが悪いのではなく、それはそれで重要なことである。
でも、だとしたら、ことさらに「むずかしいことをやろうとしているというポーズ」をとって、人々を煽るようなことを言うべきではないだろう。
もっと淡々と「これこれのことをWebでやりたい人は、このような決まりに従っていきましょう」ということをいろいろ言って、議論を導いていけばよいのである。
そうすれば、「SWって次世代のWebらしいけど、どんなすごい世界が待っているんだろう」とか「SWって要するに何ができるの」とかいう過度な期待や疑問もなくなって、多くの人が冷静に対処できるようになると思う。

いや、SWにもAIの研究者が関わっているし、OWLと呼ばれる、概念の記述形式も議論されているから、ちゃんとコンテンツやデータの意味を扱おうとしているし、Webを賢くするための努力をしている、という人がいるかも知れない。
概念やオントロジーをきちんと定義したいという気持ちはよいけれど、それこそ80年代のAIに何も学んでいないのではないだろうか。

オントロジーなんて大上段に構えなくていいから、まず言葉の意味を考えるところからはじめよう。
言葉の意味は、オントロジーのように抽象度の高い概念を考えるところからはじめるのではないので、着実に前に進めることができる。
WordNetという有名なフリーの辞書があるけれど、ああいうものをちゃんと作っていくことが本当のSemantic Webへの第一歩なんだと思う。

本当のSWにとってRDFやOWL等の言語仕様はまったく本質ではない。
SWの(構成要素の)仕様は今こうなってます、なんてことをビジネストレンドか何かみたいに紹介しているWebサイトはいろいろあるけれど、人々を啓蒙するのが目的なら、もう少し本質的なことを書いて、一体何に目を向けるべきなのか示してあげるべきなのではないだろうか。

ちなみに、任意のコンテンツと言葉の意味をつなぐ仕組みに、意味的アノテーション(特に、言語的アノテーション)というのがあって、産業技術総合研究所の橋田浩一さんが中心になってGDA (Global Document Annotation)というメタ情報の記述形式を提案している。
僕もこれに基づくオーサリングツールを作ったり、その応用として要約、翻訳、言い換えなどのシステムを作ったりしている。

GDAがOWL等と本質的に違う点は、言葉(正確には文書)の意味をまじめに記述しようとしている点である。
言葉の意味を扱うということはとても地道で迂遠なことである。
しかし、いずれはやらなければならないことであるのは、おそらく間違いがないだろう。

会社を辞めて大学に来てから、しばらく元気が出なかった(教育者というのは一般に報われない職業です)が、これを書いたおかげで、自分のやるべきことを再発見したような気がするので、再び、言葉の意味を扱う試みに自分の時間を費やしていきたいと思う。

WikipediaやWiktionaryのような、オンライン百科事典や辞書に関するアクティビティはとても面白いのだが、このような仕組みの延長線上に本当のSWがあるのではない。
辞典や辞書が、単独のコンテンツとして読むだけのものであるなら特に問題はないのだが、ある別の文脈における言葉の意味を知るために参考にするものであるなら(普通はそういう使い方をするだろう)、その文脈を考慮しなければならない。

言葉は生来的に多義なものであり、その使用文脈を同時に考慮しないと意味を正しく特定できない。
そのような文脈を考慮した上で言葉と辞典の説明を結び付ける一般的なやり方は存在しない。

しかし、それが不可能だと言いたいのではない。
言葉の意味を特定できる文脈を機械に教えてやる仕組みとそれに基づいて機械が文脈と意味との関連付けを学習する仕組みを実現すればよいのである。

こういうことを書いていると、また誰かに、「それはお前がやればいい」とか言われそうなので、やはり自分で作ってみせるしかないと思っている。

それにしても、みんな、見た目の面白そうなこととか、すぐに使えそうなこと、あるいは標準化活動みたいな自分の名前はアピールできるかもしれないけれど創造性のかけらも感じられないような仕事とかに魅かれて、すごく地味だけど本質的なこと(主に研究活動)に積極的に関わろうとする人がとても少ない気がする。
それに、自然言語処理の研究はかなり以前から行われているけれど、この何年かは、言語コーパスとか統計的処理とかあたりまえにできることばかりやっていて、なんだかとてもセンスが悪い気がする。

Webを今のようにしたのは、アメリカの研究者や技術者の力が大きかったけれど、本当のSWの実現にイニシアティブを発揮するのはアメリカ人とは限らない。
だからアメリカの動向ばかりうかがっていないで(サーベイするのはもちろん重要だけど)、日本にも、自分から周囲の人たちによい指針や影響を与えられるような人が必要だろう(ちなみに、僕はそんな器ではないですよ)。

投稿者 nagao : 21:44 | コメント (264) | トラックバック

2005年08月03日

ATという名の乗り物

AT8号機

僕らの世代では、ATと言えば無論「ボトムズ」である(ボトムズについて知らない人はぐぐってください)。
あの作品の中ではATは兵器(パワードスーツみたいなもの)であるが、僕はあれを未来の個人用の乗り物として捉えていた。
確かに2足歩行の乗り物なんて効率悪いし、乗り心地悪そうだし、そもそも必然性があまりないのだけど(どこぞの自動車メーカーさんごめんなさい)、ボトムズのATは足の裏にグラインドホイールと呼ばれる小型の車輪を装備し、ローラーダッシュと呼ばれる高速移動ができる。
また、足があることを最大限に活用した関節クッションの仕組みで、高いところから落下して着地したときの衝撃を吸収することができる(このときの姿勢を降着姿勢というらしい)。
これはものすごく合理的な仕組みだと、子供心に思ったものである。
ちなみに、頭部についた3種類のカメラを切り替えたり、首を回すように、そのカメラを左右に回転移動させたりするのはちょっとナンセンスだと思う。
やはり複数のカメラを同時に全方向を見渡せるように配置して作動させるべきでしょう。

現在、僕のいる大学の研究室では、ATと呼ばれる個人用の乗り物を作っている(写真は最新のAT8号機)。
当然ながら、ボトムズのAT (Armored Trooper)ではない。
僕らのATは、Attentive Townvehicleの略称である。
Attentiveとは「注意を向ける」とか「気配りをする」とか、「気の利いた」とかいう意味である。
Townvehicleは、Townwear(街着)からヒントを得た造語である。
「街車」なんて訳してしまうと何か変だけど、タウンビークルという言葉には割と好きな響きがある。

僕らのATはセグウェイのように立って乗ったり、電動車椅子のように座って乗ったりできる変形可能な乗り物である。
ATはセグウェイの二番煎じのように言われることもあるが、スタンドアローンの情報マシンに過ぎなかったPCをネットワークマシンにしたような、あるいは、テープやディスクという音楽記録メディアのポータブル再生マシンに過ぎなかったウォークマンを物理的なメディアから自由にして音楽プレイヤーの概念を変えたiPodにしたような、そのくらいの革命的な変化をセグウェイにもたらしたもの、だと確信している(でもまだ製品になっていないのでインパクトはあまりありませんが)。

僕は乗り物はすべてネットワーク化されるべきだと思っている。
それは、人間の安全を守るために不可欠な機能である。
人間は目に見える範囲のことはかなりよく認識できる(ゆえに、いわゆるコンピュータビジョンは人間に勝てない)。
しかし、目に見えない範囲の認識能力は極端に低い(だから、死角から近づいてきた人からの攻撃をうまくかわせない)。

情報通信機能は人間の認識能力を拡張することができる。
だから、乗り物はお互いの存在を知らせて、人間に注意を促すためにネットワークを構成するべきなのである。
通信によって、お互いの位置・速度・進行方向・移動履歴・目的地などを早めに教え合うことができれば、衝突や接触を回避できるだけでなく、目に見えないところの状況を人間に知らせる有力な手段になる。
搭乗者が知り合い同士の場合は、名前やメッセージを送り合うのもよいだろう。
そんなことは、近い将来、ケータイ(あるいはウェアラブルマシン)でできるようになると思うかも知れないが、機械が通信によって獲得した情報のうち、特に緊急性が高いものを人間に知らせる最も効果的な方法は、物理的な行動に直接的に反映させることだと思う。
そのための手段として、移動の粒度が細かい、小型で個人用の乗り物ほど都合のよいものはないだろう。
マシンに「危ないから止まれ」と言われても、人間の反応が遅れて間に合わない可能性があるけれど、「危ないから止まるよ」って言われつつ自動で止まったとしたら(人間に伝わる加速度を考慮して止まるべきだけど)、危険を回避できる可能性はより高くなるだろう。
利点はそれだけではないけれど、とにかく、人間に関わる暗黙的な情報を物理的な力に変換するためのマシンは非常に大きなポテンシャルを秘めていると思う(悪用されるととてもやっかいなことは間違いがないが)。

もう一つ、ATに込めた僕の期待には本当のバリアフリーの実現がある。
バリアフリーという言葉はよく耳にする。
建物の入り口にスロープを設けたとか、エレベータを設置したとか。
でも、通路の脇に車輪がはまりやすい細い溝があったり、(普通に歩いているとほとんど気にならない)ちょっとした段差がたくさんあったり、本気でバリアフリーに取り組んでいるのか、と言いたい場所がたくさんある。
要するに、設計者は車椅子に乗って建物内を動き回ったことがないのであろう。
だから、バリアフリーに関して本質的に何を考慮して設計するべきなのかよくわかっていない。

ATは乗り物であると同時に情報マシンだから、移動の安全性を向上させるのと同時に、ネットワークに常に接続することで可能なサービスがいろいろ提供できる。
ゆえに、移動中にできることが増え、その結果、多くの人がそれで移動するような状況になる。
そうなると、これまでのバリアフリーではまだまだ不備がたくさんあることが徐々にわかってくるだろう。
多くの人にとって不備があることがわかると、都市インフラを早急に改善しないと経済的に不利な状況になる可能性が出てくる。
結果、都市全体としてバリアフリーにならざるを得ない、というシナリオを考えている。

もちろん、これがご都合主義的で稚拙なシナリオであることはよくわかっている。
だけど、たとえば、車椅子のユーザーがマイノリティでいるうちは、バリアフリーに関する本質的なインフラの改善など望むべくもないような気がするのである。
だからといって、全員が車椅子に乗れ、などというのはナンセンスである。
その必然性がないからである。
ATはマイノリティにもマジョリティにも有用な機能(認知的能力の拡張と安全性の向上、そして状況に依存した情報サービス)を実現するユニバーサルなマシンである。
もちろん、ユーザーの特性に応じて異なる物理的形態をとり、最適なユーザーインタフェースを装備できるように作るべきである。
まだ必然性に乏しいかも知れないけれど、コンテンツやサービスが増えてくれば、今の時点での想像をはるかに超えた便利なマシンになっていくだろう。

ATはまだ実用的ではない。
そもそも、それに乗って街中を走れないし(車椅子と同じスピードだから歩行者扱いになると思うのだけど、まだ試していない)、乗ったままお店にも入れないし(ドアから入れないという意味ではない)、電車にも乗れない。
だから、僕がどんなに説明しても、多くの人にはATが日常生活に入ってくる姿がイメージしにくいだろう。
しかし、ネットワーク化された個人用の小型の乗り物によって、現状では解決が困難なさまざまな問題に、適切に対処できるようになると思う。
これは、高齢者や障害者だけでなく、一般の人にとっての問題(たとえば、交通安全、健康管理、記憶の補助、時間の節約など)である。

僕は、エージェントとコンテンツを含む、気の利いた情報システムの構築と、人と機械が影響を及ぼしあってお互いに賢くなっていく仕組みの実現をライフワークとしているが、情報と物理世界のよりよい関わりについても、同様に自分が継続的に追求していくべきテーマだと思っている。
僕にとって、ATとはそれらの要素がバランスよくミックスされた、とても興味深いテーマなのである。

投稿者 nagao : 20:06 | コメント (62) | トラックバック