2008年11月24日

権威を壊し、権威を創る

ネットが破壊したいくつかの伝統的なものの中に学術的権威がある。

マスメディアは大衆の意識を操作するために学術的成果よりもその権威をよく利用した(誤用や意図的な誘導もたくさんやった。ちょっと古いが有名な例は「あるある大事典」)。
そして、マスメディアの腐敗の陰で、ネットが人々の目を覚ますために機能した。
しかし、当然の帰結として、マスメディアが重用してきた権威を疑うことになった(ノーベル賞のみが依然として権威を維持していると思われるのは脅威的である。なぜあの賞だけ世界が一様に評価しているように見えるのか説明できます?)。
確かに、マスメディアにおもねり芸能人もどきとなった知識人(大学教授とは限らない)はたくさんいるし、そういう人たちは深い学問を単純化してみせたり(わかりやすくすることと単純化することは同じではない)、特殊な事例を拡大解釈して一般化してみせたり、結論の出ていないことを言いきってみせたり、難解な専門用語を使って素人を煙に巻くことに貢献してきた。
だから、ネットユーザー(特に、マスメディアによる洗脳が解けた人たち)が多くの学術的権威に疑義を抱き始めた(と思われる)のは無理からぬことである。

その代わりに台頭したのは、ユーザーによるランキング、要するに大衆の人気である(それを集合知と呼ぶ人もいるが、僕はランキングの類は集合知だとは思っていない)。
僕は、ベストセラーを含む一般向けランキングを参考にして行動することはほとんどないけれど、一部の専門家の評価よりも、著書が売れているとか、ブログのアクセス数が多いとか、クチコミによる評価が高いとか、の理由で、専門家ではない人の手による、ある内容に関する信用度が上がってしまうという状況は危険だと思っている(比較的最近の例では、ソーシャルネットワークにおけるいわゆる「6次の隔たり」)。
ランキングを信じるのが常にまずいわけではないが、学術的内容に関連するものなら、(特に、マスメディアに利用されていない)専門家の考察や評価を参考にすべきだろう。
その専門家個人が無名でも、その個人が関わっている組織(特に学会)を信じよう、ということである。

たとえば、僕の兄は現在、小児科の開業医をしているが、日本小児科学会の年次大会(学術集会)には必ず出席するそうである。
学会誌などの専門書を読んで勉強している時間はあまりないけれど、最新の成果を知っておかないと患者への対処を間違ってしまう可能性があるからだそうである。
つまり、少なくとも兄にとっては、自分の所属する学会が有効に機能しているようである。

しかし、どうも存在意義がよくわからない学会がたくさんある気がする。
「そもそも、学会って何のために存在するのかわからない」「学会がなくても別に困らないのではないか」という具合に、権威が失墜するばかりか、人々にその存在理由を問われてしまうのではないだろうか。
実は、僕もそんなふうに考えていた時期がある。
僕に査読がまわってくる論文のほとんどが取るに足りないゴミ論文だったり、年次大会で僕が聴講した発表の多くが「この学生の指導教員は何をやっているんだ」と言いたくなるようなダメ発表だったりしたからである。

ネットがあたりまえになる以前は、学会に参加しなければその分野の状況がよくわからないため、どうしても会員にならざるを得なかった。
それでも、多くの場合、期待していた内容や議論を発見することができずに失望を繰り返していたのである。
ある学会なんか学会誌をちらっと見ただけで、やる気のなさが伝わってきて、会員になるのをやめたことがある。

しかし、あることを通じて考えが変わった。
そのきっかけは、僕が以前から関与している「デジタル認知科学辞典」である。

デジタル認知科学辞典というのは、現在、僕がほぼ一人でメンテナンス(データの修正・更新やダウンロードサイトの管理)をしている電子辞典である(最近第2版が発行されることになったので、初版をお持ちの方はここにアクセスしてアップデートしてください)。
辞典コンテンツの著作権は日本認知科学会という学会のもので、この学会が編集したことになっている(僕はこの学会の会員ではないが、この辞典の編集委員の一人である)。
この辞典は、まず紙媒体として出版され、その後電子化され、CD-ROM版が出版された。
その電子版の設計は僕が行い、研究室の学生たちと一緒にWeb上にシステムを構築した。
このシステムは、オンラインでコンテンツを管理し、検索・編集・新規項目の作成(および、編集者によるコメント付与)をするためのものである。
ただし、残念ながら、このWebシステムはまだ一般には公開されていない。
これが公開されれば、専門家のレビュー・コメント付きのWikipediaみたいなオンライン辞典が実現できるだろう。

また、これは余談であるが、辞典項目の図や数式をテキストとシームレスに表示するために、SVG (Scalable Vector Graphics)を利用している。
実は、僕は普段Internet Explorer (IE) Version 6(OSはWindows XP)を使っているので最近まで気がつかなかったが、IE以外のブラウザはAdobeの提供するプラグイン(SVG Viewer)なしでSVGデータを表示できる。
それで、デジタル認知科学辞典のコンテンツを、IE以外のブラウザでAdobeのプラグインなしで閲覧できるように表示形式を変更した(ブラウザの種類によってembedタグとiframeタグが入れ替わる)。
しかし、IE Version 7(およびWindows Vista)ではなぜかこの辞典のコンテンツをちゃんと表示することができない(MicrosoftもAdobeもこの件ではあまり当てにならない)。

SVGの良い点は、図や数式とテキストがシームレスに表示できる(正確には、HTMLと同様にトランスクルージョンという手法で外部データを埋め込んでいるのだが、SVGの方がよくできている)ことや、ベクトル形式なので拡大縮小が柔軟にできることなどである。
実は、テキストコンテンツの引用をコピー&ペースト以外のやり方で実現するために、SVGは重要な役割を持っている、と僕は考えている(コピペによるテキストの引用がダメというのは僕の信念である)。

さて、この辞典(に関わる活動)がきっかけとなってわかってきたことは、学会がその関連分野の専門用語辞典を作るという話の先に、学術的オントロジーの構築と維持という、より大きな目標があるということである。
オントロジーとは、要するに言葉および言葉と言葉の関係を詳細に定義したものである。
同じ言葉が、文脈(時代背景などを含む)によって異なる使われ方をするのならば、それらを区別できるように細かく定義するということである(一般に、オントロジーは、言葉の意味を細分化した概念に相当するノードと、ノード間のリンクから成るグラフとして表現される)。
言葉というのは人間の思考の断片を表すものだから、その意味(定義)はそれを使用する人間に依存する。
しかし、すべての人間ごとの意味を正確に考慮するのは不可能だから、考えられる多くのケースに基づいて、この言葉の意味(定義)はこうだ、と誰かがお墨付きを与えるのである。

これがなぜ重要かというと、言葉の意味を詳細に定義していくと、異なる言い方が同じことを言っているのかそうでないのかを厳密に判断することが可能になり、それによって情報をより正確に伝えることができるようになるからである。

しばしば、異分野の研究者間でコミュニケーションがうまくいかないのは、お互いの語彙のすり合わせがきちんとできないからである。
同じことを異なる側面から見ていることがわかれば、文脈が伝わりやすくなり、議論のきっかけができるだろう。

学会の重要な役割の一つは、ある専門分野に関するオントロジーを構築し維持していくことである。
そして、学会に所属する研究者がその分野に貢献するということは、その学会の構築したオントロジーを拡張していくということである。

あらゆる論文を、オントロジーのどの部分に何を加えたかということで評価するのである。
どれほどの量の論文を発表したとしても、ほとんどオントロジーに貢献しない(すなわち、その論文は既存の概念の言い換えに過ぎない)のなら、たいしたことはしていないことになる(ただし、言い換えたことによって、他の研究者に良い刺激を与えたのならば、その点は評価すべきだろう)。

こういうことをはっきりさせていくことで学会の存在意義がわかるのである。

そして、学会のもう一つの役割は、(会員以外の人を含めて)人々の好奇心や学習意欲を刺激して、学問の世界に適切に導いていくことである。
誰かが何かを知りたいと思ったら、それがどのオントロジーのどの部分に関係するのか、はっきりさせて、読むべき文献を紹介し、そのテーマがいったいどういう経緯で研究されてきたのかを概観する手助けをするのである。

さらに、教師は、学生の好奇心(に基づく行動)と学術的オントロジーを適切に結びつける義務があると思う。
教師は、学生をよく観察して、その学生に学習へのきっかけを与えるべきである。
好奇心のない人間はいないのだから、どんな学生でも学問の世界に導いていくことはできるはずである。
無論、学会はそういう教師を支援しなければならない。
教師自身がある学問の専門家である必要はないけれど、学会の提供するオントロジーを利用するスキルは必要になるだろう。
それによって、誰かがあることに興味を持ったとき、それがいったいどのような学問に関わることなのか、そしてそれがどのくらいの深みと厚みをもった学問なのか、オントロジーを利用することによって知ることができるだろう。

そして、学術的オントロジーは論文の書き方にも影響を与えるだろう。
これからの論文は、研究の背景や関連研究に多くのスペースを費やす必要はない。
どのオントロジーのどの部分にどんな新しい内容を追加するのか、根拠を示しながら、提案すればよいのである。
オントロジーへの貢献度がその研究者の評価に直接結び付くような世界になればいい。
そのような論文の書き方をすれば、論文の冗長性は激減し、従来研究との差分やエッセンスを容易に見い出せるようになるだろう(論文は物語ではないので、このような書き方でも問題はないと思う)。

オントロジーとの関係を考慮せず、ただ発明・発見された理論や技術の実用的な部分のみを公表したいのなら特許を書けばよい。
しかし、論文は、それにどれほどの学術的価値があるのかを明らかにしなければならない。
そして、その学術的価値を保証してくれるのは、マスメディアでも、ネットでのランキングなどでもなく、オントロジーを維持している学会なのである。
Wikipediaについて、専門家が自分の専門分野においては参考にならないと判断しているという話をよく聞くが、やはり大衆の力では専門分野の辞典やオントロジーを正しく構築・維持することはできないのだろう。
そういうオントロジーには多大な労力がかかるから、学会に頼らざるを得ない状況が発生するのである。

さて、このような専門家による分野ごとのオントロジーは、いずれ総合学術オントロジーという形で統合されるだろう。
総合学術オントロジーは、さまざまな分野のオントロジーが高度に連携され、分野間にまたがった検索や推論も可能で、それぞれの分野の研究者の間のコミュニケーションを円滑にするだろう。
この企画は、僕の古くからの知り合いが提案したもので、僕もそのプロジェクトに関わっている(この知り合いは僕にとって数少ない尊敬できる人物の一人である)。


「情報爆発」なんていう言葉があるけれど、情報が爆発してしまってからその後始末を考えるだけでなく、情報の爆発をできるだけ未然に防ぐための努力が必要なのである。
それは、公開されるコンテンツ(つまり、論文)の量を制限するだけでなく、コンテンツの持つ情報量そのものを圧縮することも含んでいる。
冗長性をなくし、誰にでもそのエッセンスが何であるかわかるようにするのである(ただし、その意味を正確に理解するためには関連するオントロジーにある程度精通している必要がある)。
(学術的内容に限定されるとしても)情報の爆発を防ぐことができるのは学会(より厳密には、ユーザーから投稿されるコンテンツを適切に評価する組織)だけだし、そのためにやるべき最も重要なことは、オントロジーを責任を持って構築・維持していくことなのである。

多くの学会が自らに課せられた責任を果たし、ネットユーザーからの質問に注意深く答え、まっとうな批判には真摯に対応し、マスメディアによる誤った学説の流布にはきちんと訂正を求め(その経緯もネットで公開するとよい)、専門分野に関する教育に対する具体的な提言を続けていけば、その学会の学術的権威は必ず生まれてくるだろう。

その結果、ネットに破壊された権威はネットで再生するのである。

投稿者 nagao : 17:11 | トラックバック

2008年02月02日

Wii Meet

大変ご無沙汰しています。
昨年末から1月にかけてはあまりにもいろいろあって、ブログを見たり書いたりすることができませんでした(今日になってデータベースがダウンしていたことに気がつきました。ブログを停止したと思われた方もいらしたと思います。大変失礼しました)。


最近、僕のいる研究室では、メンバー全員が自分専用のWiiリモコンを持って会議(研究室のゼミ)に参加しています。
それ以前は、以下の写真に示すような会議3点セットと呼ばれるツールを使っていました。

discussion_set.jpg

これらは、発言を開始するときに上に掲げてアピールすると同時にメタデータを作成するための2枚の議論札、発言中にスクリーン上の対象を指し示すためのレーザーポインタ、そして、発言を評価したりマーキングしたりするためのdボタンと呼ばれるボタンデバイスです。

ほぼ同時に使用する道具が3種類もあると、持ち替えたりする手間が増え操作が煩雑になって使い勝手が悪くなるため、これらをうまく1つにまとめられないものかと考えていました。
そこで、これらを1個のデバイスにするために、僕たちはWiiリモコンを使うことにしました。

僕たちが会議で使用しているWiiリモコンには、発言に関するメタデータを作成するためのタグ機能、発言中にスクリーン上の対象を指したり、スクリーン上に線を描いて説明を補助するためのポインタ機能、直前の発言に対する参加者の賛成・反対・中立などの態度を入力・集計するためのボタン機能を持たせています。

これらを順に説明していきます。

1.タグ機能
僕たちの会議では、これまで、前述の議論札を使って、発言に関するメタ情報(発言者ID、発言開始時間、発言タイプ、発言者の座席位置)をリアルタイムに入力して記録していました。
特に、発言タイプは、議論を構造化して、トピックごとのまとまりを発見するのに有効です。
それで、Wiiリモコンにもその機能を持たせることにしました。
札を上げるという特徴的な行為を継承するために、リモコンを上に向けて掲げたときの高さや角度(ひねり)を使って、発言者の登録と発言タイプを入力する仕組みを実現しました。
これは、一般の会議で発言者が挙手をして、司会者に指名されてから発言を始めるのに近い行為ですから、悪くないやり方だと思っています。

たとえば、以下の写真のようにリモコンを上に掲げると新規の発言が登録されます。

participants1.jpg

発言が登録されると、以下の写真のようにサブディスプレイに反映されます。

subdisplay1.jpg

登録した時点で、発言者がいなければ登録者はすぐに発言できる状態になりますが、誰かの発言中に登録した場合は、発言予約リストに加えられ、直前の発言が終了するとその人の順番になります(ただし、登録者が発表者かどうか、また、発言タイプによって、微妙に順番が変わったりします。自分が発言できる状態になったことは、リモコンの振動とサブディスプレイの表示でわかります)。
サブディスプレイには、現在の発言者の映像や、発表者が過去に表示したスライドのサムネイル画像なども表示されます。

前述のように発言には2種類のタイプがあり、赤く表示されているのは導入タイプ(話題を変えるとき)で、黄色で表示されているのは継続タイプ(話題を変えずに議論を続けるとき)です。
これらのタイプは、リモコンを上に向けるときにひねりを加えて角度を90度変えると変更することができます。
ちなみに、発言者の名前と発言タイプは自動的に、後述する議事録に反映されます。

さらに、位置を表す赤外線IDを使って、登録と同時に発言者の座席位置がわかるような仕組みも実現しました。
これによって、後述する、天井に設置したパンチルトカメラを発言者に向けることができます。
ちなみに、発表者はメインディスプレイの隣に座席が固定されていますので、固定のカメラで撮影されます。


2.ポインタ機能
Wiiリモコンには、もともと画面上の任意の部分をポイントして選択するダイレクトマニピュレーションのための機能が備わっていますが、その実装の都合上、1つのディスプレイ上の操作に限定されていました。
僕たちの会議では、メインディスプレイ(プロジェクタスクリーン)とサブディスプレイ(大型液晶ディスプレイ)の複数のディスプレイを利用していますので、Wiiリモコンをマルチディスプレイに対応させる必要がありました。
そこで、Wiiリモコンおよびセンサーバーに、前回のエントリーで述べたような細工を施しました。

タグ(札)として用いるリモコンを以下の写真のように前に向けるとポインタとして利用できます。

participants2.jpg

さらに、ポインタを使ってスクリーン上に線や図形を描くことができます。
以下の写真は、スライド内の図に円や線を描きながら質問しているところです。

maindisplay1.jpg

全員がリモコンを持っているため、ある議論中に複数の参加者が同じスライドに印を付けることもあります。
たとえば、以下の写真のように、参加者のポインタは色分けされているので、誰がどの部分に言及しているのかちゃんとわかるようになっています。

maindisplay2.jpg

発表者は座席位置の都合でメインディスプレイをポイントしにくいので、前方の床に小型のディスプレイを置いて、それにポインタを向けるようにしています。
以下の写真は、発表者がポイントしている様子と、発表者用のディスプレイを示しています。

presenter.jpg

presenter_display.jpg


3.ボタン機能
ボタンは、参加者全員が非同期に、直前の発言に対して賛成・反対・中立の態度を表明したり、後で検索しやすくするために発言にマーキングしたり、任意のタイミングで多数決を取ったりするときに用いられます。
以前は、前述のdボタンを用いて、この機能を実現していました。
これは、3個のプッシュスイッチを持ち、それぞれを押す(2個同時に押すこともできます)と赤外線IDを送信するボタンデバイスです。
Wiiリモコンには、11個のボタン(電源ボタンを含めると12個)が備わっていますので、そのうちの5個のボタン(+ボタン、-ボタン、HOMEボタン、1ボタン、2ボタン)を使って、とりあえず必要な機能に割り当てています。

サブディスプレイには、以下の写真のように参加者がボタンを押した状況が反映されます。
青は直前の意見に賛成、赤は反対、緑は中立を表しています。

subdisplay2.jpg

ボタンは、任意のタイミングで多数決をとるときにも使います。
これは、発表者がツールを使って質問を設定すると多数決モードになり、その結果は以下の写真のように円グラフとしてサブディスプレイに表示されます。

subdisplay3.jpg

ちなみに、2のポインタ機能では、6個のボタン(十字キー、Aボタン、Bボタン)を用いています。
十字キーはポインタの色やサイズを変更するときに使い、Aボタンは前述のようにポインタの移動軌跡を画面上に残し、線を描くときに使います(Aボタンを離すと点のみに戻ります)。
Bボタンは、描いた線を消去するときに押します。

また、Bボタンを押しながらAボタンを押すと、ポインタのモードを切り替えることができます(ただし、前述のタグ機能とボタン機能はモードには依存しません)。
ポインタのモードを切り替えてから、Aボタンを押すと、ポイントしている画面内の対象に対するオペレーションを起動することができます。

たとえば、サブディスプレイには以前にメインディスプレイに表示されたスライドの履歴が表示されていますが、過去のスライドについて質問をしたいときに、以下の写真のように質問者がスライドのサムネイルをポイントして(サムネイルをポイントすると左側に拡大表示されます)、Aボタンを押すと、そのスライドが選択されメインディスプレイに表示されます。

subdisplay4.jpg

以上の3つの機能を備えることによって、Wiiリモコン1台で、僕たちがこれまでに使っていた、議論札、レーザーポインタ、dボタンをすべて置き換えることができました。

ただし、前述のように、Wiiリモコンにはその先が向いているディスプレイがメインかサブかを知るための仕組みがありませんし、リモコンを上に掲げたときの参加者の位置を知る手段もありません。
そのため、前回のエントリーで述べたような仕組みが必要でした。
つまり、センサーバーの赤外線LEDにIDをエンコードし、リモコンにそのデコーダを装着しました。

リモコンがディスプレイを向いているときは、IDはどのディスプレイを指しているかを表しており、リモコンが上に掲げられたときは、IDはその場所(座席位置)を表しています。
これは、Wiiリモコンの先端にある赤外線イメージセンサー(LEDの光が相対的にどの位置に見えているかを知る)と同じ方向を向くように赤外線デコーダ(LEDの光に変調されたIDを受光して復調する)を装着して、赤外線LEDの座標と埋め込まれたIDを同時に認識することで実現しました。

ディスプレイ付近に設置したLEDは、いろいろな角度から1点として見えるようにし、座席上部に設置したLEDはそのちょうど真下から2点として見えるようにしました。
これは、ディスプレイはさまざまな座席位置からポイントできる必要がありますが、逆に座席用は該当する座席以外からは見えないようにするためです。
また、ディスプレイ上のポインタには向きがないので、光を2点にしてリモコンの回転を知る必要はないと考えました(そのため、リモコンを回すとポインタの位置が大きく変化してしまいます)。
ただし、座席用では、リモコンを上に向けて回したときの角度を利用していますので、2点の光が必要です。
同時に、座席では、2点間の間隔を使って、LEDからリモコンまでの距離を計算しています(これによって、手を上げたときの高さがわかります)。

ちなみに、メインディスプレイ用および座席用のLED装置はそれぞれ以下の写真のようになっています。

led_maindisplay.jpgled_participant.jpg

メインディスプレイ用LED装置(左)の手前にあるのは、参加者(特に、発言者)を撮影するためのカメラです。
このカメラの映像は、常にサブディスプレイに表示されています。
また、このLEDのオンオフは赤外線リモコンでできるようになっています(つまり一度赤外線を送ると赤外線を出し、もう一度送ると停止するようになっています。自分自身の出す赤外線による影響はありません)。

座席用のLED装置(右)は参加者の頭上に固定されており、この写真ではわかりにくいですが、LEDの集合が2か所にあり、リモコンには2点として見えるようになっています。
このLEDの固定されている部分は、座席位置に合わせて前後に動かせるようになっています。


ここで重要なのは、Wiiリモコンが固有のIDを持つことができ、それゆえに、すべての行動を「誰が行っているのか」リアルタイムに識別可能であることです。
従来のレーザーポインタはポインタにIDを関連付けることができなかったため、誰がポイントしているのか自動的に知る方法がありませんでした。
僕たちの仕組みを使えば、誰がいつどのディスプレイのどの部分を指しているのか簡単にわかります。
また、タグ機能によって発言者がわかり、その人が画面上のどのオブジェクトを指しながら発言しているのかわかります。

具体的には、PowerPointで作成されたプレゼンテーション資料からテキストやイメージの画面位置情報を抽出し、テキストならポインタが一定時間以上滞留した文字の情報、イメージならその内部にポインタが滞留した領域をリアルタイムに検出することができます。

ところで、発言のテキスト情報の入力は自動認識ではなく、書記がタイピングしています。
書記は、以下の写真のように、もう一つのサブディスプレイの隣に座っていて、ノートPCを使って議事録を作成しています。
サブディスプレイには、入力中の議事録が表示されています。

secretary.jpg

議事録ツールは、以下の写真のように、Webブラウザをインタフェースにしており、発表者のスライド情報、参加者のタグ・ポインタ・ボタン情報が自動的に反映されるようになっています。

secretary_display.jpg


会議中に収録・獲得されたすべての情報は、以前にもこのブログで紹介した議論コンテンツに統合され、以下の図に示すようなディスカッションメディアブラウザで利用できます(詳しくは、以前のエントリー「議論というコンテンツ」を参照してください)。

dmb1.jpg

これは、3種類のビデオ映像(発表者、その他の参加者、メインディスプレイ)と構造化されたタイムライン(スライド表示、発言、ボタン入力に関するイベントの時間分布が表示されています)、発言間の関係を表した議論グラフ、スライドのサムネイルを含むテキスト議事録を表示するもので、コンテンツ内検索と閲覧が簡単にできるようになっています。
議論グラフは以下の図のようになります。

dmb2.jpg

さらに、ポインタ情報は発言に含まれる指示代名詞(「これ」「それ」など)の指し先を明確にしてくれますから、当然、発言の意味を詳細に分析するのに有効です。


さて、これだけの大袈裟な仕組みでいったい何が得られるのでしょうか。
まず、前提となるのは、僕たちの作る議論コンテンツは多用途での再利用を考慮して作成されているということです。
つまり、作成時に特定の応用のみを念頭に置いて行うことはありません。
当然、できるだけ詳細に内容を記述することが重要です。
ただし、同時に会議時間内に作成作業がほぼ完了することを目指しています。
会議中の作業を参加者全員が協力して集中的に行うため、会議後の「人間の手による」作業を必要最小限にしています。
そして、あたりまえのことですが、会議をするたびに議論コンテンツが増えていきます。
その使い道はいろいろです。
ある人は、議論コンテンツをベースに論文を書くでしょうし、他の人は、議論コンテンツ内で指摘された点を吟味してシステムを実装・拡張するでしょう。

有名なアルベルト・アインシュタインの特殊相対性理論もそうであったように、およそ人間の考えることは他者とのコミュニケーションを通じて強化されていくものですから、そのコミュニケーションの過程がしっかり記録されていれば、それを参考にすることで着実にステップアップできるでしょう。

ちなみに、この議論コンテンツは僕のライフログの一部になっています。
一週間ごとの自分の様子が映像で見れるので、「ああ、この頃に髪を切ったんだ」とか、「この頃はいらついていて妙に顔が怖い」とか、議論と関係ないことも思い出したりしています。

また、自分の発言の履歴を詳しく見て、一貫性に欠けていたりすると、激しく反省したりしています。
やはり、自分の発言には責任を持つべきですけれど、文章として残っていないものには、一般に注意が及ばず無視されがちでしょう。
だから、僕たちは検索可能な状態で記録を残すことを重要視していますし、記録を取っていることでこれまで以上に自分の発言に責任を感じるようになるとよいと思っています。

将来、蓄積した議論コンテンツが、社会人となった卒業生たちが自分の学生時代を振り返るためのライフログの一部としても使われるようになると思います。
誰でも未熟な時代の自分の姿や振る舞いを思い出すのは恥ずかしいものだと思いますけれど、現在の自分の議論力が格段に進歩したことを再確認することができればとてもよいことだと思っています。

投稿者 nagao : 21:25 | トラックバック

2007年07月02日

ウィノベーション(Wiinnovation)

表題は、任天堂の最新のゲーム機の名称Wii(ウィー)とInnovation(イノベーション。革新)を合わせた言葉である(そのまんまで恐縮です)。

以前にこのブログで紹介した「超ダートマス会議」の賞品としてWiiを購入したときに、ちょっと興味が湧いたので、研究用にさらに3台購入して、いろいろ試してみた。
実はゲームマシンを購入したのは生まれて初めてのことである(ゲームはPCで十分だと思っていた)。

Wiiリモコンとそのユーザーインタフェースはまったくすばらしい。
民生用のデバイステクノロジーに心が躍らされたのは、最近ではiPod(特にクリックホイール)以来である。
ケータイやカーナビに続いて、世界に誇れる日本の情報技術がまた一つ誕生したのだな、と思う。
これを作ったことで任天堂はさらに大きく飛躍し、作れなかったことでソニーは(この業界で)敗北したのだと思う。

日本の家電メーカーは、Wiiのテクノロジーをベースに今後の製品を考えればよい。
もうアップルなど目じゃない。
たとえば、Apple TVなんて日本じゃ絶対売れないと思う。
それにiPhoneが製品として世に出たことで、僕の好きなiPodには未来がない(より正確には、現在のiPodのビジネスモデルには先がない)こともわかってきたし、ケータイなら日本の技術やサービスの方が優れていると思う(これは、いわゆるケータイではないがAdvanced/W-ZERO3[es]は、iPhoneよりよくできている気がする)。


僕は、家電のIT化は地上デジタル放送対応のハードディスクビデオから本格的に進むと考えていた。
いわゆるホームサーバーの機能とよくマッチするからである。
でも改めて考えてみると、家電のIT化(つまり、ネットワーク化とサービス連携)にはWiiはもってこいのマシンである。

まず、無線LANとBluetooth(さらにUSB)を内蔵しているので、家電間の通信と連携に比較的簡単に対応できる。
また、一般のテレビを表示装置にしているので、ハードディスクビデオと同様に、テレビを操作する感覚でさまざまなアプリケーションを操作できる。
さらに、何と言ってもWiiリモコンが秀逸である。
通常の家電の赤外線リモコンにはできない(その試みはあったかも知れないが)ダイレクトマニピュレーションができる。
これは、PCやPDAのユーザーには特に新しいことではないが、家電の操作においては画期的なことである。
テレビはある程度離れて見るので、タッチパネル方式ではダメなのである。

また、振動や音によるリモコンへのフィードバックもできるので、操作時のナビゲーションはこれまでのリモコンより直感的でわかりやすい。

IT家電のインタフェースデバイスはこれでほぼ決まりだろう。
任天堂が射程に入れられる世界はさらに大きく広がったと思う。


僕はこのWiiリモコンに惚れ込んでしまったので、これを自分たちの研究にも役立てることにした。
そのために、今のWiiリモコンにはできない(当然、これまでの赤外線リモコンにもできない)ことを一つ実現してみようと思う。
それは、リモコンの現在位置(家の中のどこにあるか)を自動的に知ることである。

この問題を解く方法そのものは簡単である。
ユーザーがWiiリモコンでテレビ画面上のどこを指しているかを計算するための仕組みは、テレビの上か下に設置した赤外線LEDを、リモコンの先端に内蔵された可視光フィルタ付きのCMOSイメージセンサー(つまりカメラ)で検知して、相対的な位置関係を計算するというものである。
付属の赤外線LED装置にはセンサーバーという名前がついているが、これ自体はセンサーではないので誤解されやすい名前である(素直にIRバーとでも言えばよいのに)。

このLEDデバイスに、位置に関するIDを埋め込めばよいのである。
僕は、昔(1998年)赤外線LEDで構成されるマーカーにID(このときはマーカーの枠線内の点の数で表現した)を埋め込んで、天井に設置し、それを可視光フィルタ付きCCDカメラで撮影して画像処理し、リアルタイムに室内位置を認識する仕組みを作ったことがある。
以下の写真は、そのときの実験に使った赤外線マーカーである(無論、これらの光は肉眼では見えない)。

IRmarker.jpg

(長尾確ほか「エージェントテクノロジー最前線」共立出版 2000より)

IDだけでなく、あらかじめ登録しておいたマーカーの画像(正面から間近に見た場合のパターン)と、今見えているマーカーの画像の違いから、カメラを持つユーザーの3次元的な位置と方向を同時に認識することができた(位置の精度は誤差30cm程度である)。
以下の写真は、実験していたときの僕の姿である。
腰のあたりにあるノートPCの上の方に、常に天井を見ているカメラが装着されている。
頭には旧型のヘッドアップディスプレイが装着されている(今改めて見ると実にダサい)。

nagao1998.jpg

(長尾確ほか「エージェントテクノロジー最前線」共立出版 2000より)

今回は、WiiリモコンのCMOSセンサーの処理プログラムを変更できそうにないので、LEDの光を変調してIDをエンコードし、IR光センサー(フォトディテクタ)で受信してIDをデコードすることにする。
デコーダのデバイスはWiiリモコンの拡張ポート(ヌンチャクなどと接続する部分)に接続して、本体(この場合はPC)にデータを送信する。
リモコンが向いている先にあるIRバーのIDを受信することで、リモコンの現在位置を知ることができる。
ただし、これはまだ完成していない。
リモコンの拡張ポートを用いた通信は思った以上に複雑だったからだ(リモコンと拡張コントローラが400kbpsのI2C (Inter Integrated Circuit)通信を行っていることはわかったけれど、どうもデータが暗号化されているらしい)。
これがうまくいったら、またこのブログで触れたいと思う。

リモコンの位置がわかるということは、当然、それを使っているユーザーの位置がわかるということである。
複数のユーザーがそれぞれ自分用のリモコンを持ち(Bluetoothデバイスには全世界で固有のIDが付いている)、異なるディスプレイ上で何かを操作している(たとえば、部屋や廊下の壁の一部がディスプレイになっている状態を想像して欲しい)とすると、誰がどこにいてどのディスプレイに向っているのかわかる(いる場所によってBluetoothの接続先を切り替えないといけないのではないかと突っ込まれるかも知れないが、いつのまにか切り替わっているとか、現在より遠距離まで届くようになっていることを予測している。ただし、利用するディスプレイごとに接続先を切り替えるのはナンセンスだと思う)。


ユーザーの文脈(現在位置と時間、および操作履歴など)に依存した(このことをコンテキストアウェアと呼ぶ)サービスが可能になれば、家電の利用法はさらに簡単でわかりやすいものになるだろう。
Wiiリモコンおよび関連ソフトウェアのもたらしたインパクトはとても大きく、情報家電サービスが本格的に実現されるだろう。


ところで、これからシステムやサービスを設計するときは、ユーザーを積極的に巻き込める仕組みにしたほうがよい。
これは、製品化前のモニター調査みたいなものではなく、製品化後にシステムやサービスに付加価値をもたらす活動にユーザーが自発的に参加できるようにするものである。
「第三の波」(中央公論新社 1982)という本の中で、著者のアルビン・トフラーは、このことを、生産(プロダクション)と消費(コンサンプション)を合わせた言葉であるプロサンプションと名付けている。


これに関連して、最近読んだ本にこんなことが書いてあった。
ちょっと長いけれど、とても興味深かったので引用する。

プロシューマー・コミュニティを活用する

プロサンプションは、実業界が見たこともないほどパワフルな変化と革新のエンジンになりつつある。
顧客との協創は、ユニークな能力をもつ史上最大の知的資本プール(すぐれた製品やサービスを作るという点について、誰にも負けない熱意をもつ才能の宝庫)を活用することに等しい。
その代わり、やり方のルールはまったく異なるし、既存ビジネスモデルが難しい課題に直面することにもなる。
そんなことはないと思っている人は、すぐそこに迫ったプロシューマー革命の意義や影響を十分に理解できていないのだ。

単なるカスタマイズではない

プロサンプションは、顧客擁護の仮面をかぶったマーケティング手法ではないし、製品の単なるカスタマイズでもない。
カスタマイズとは、既製品を自分に合わせてもらうことをいう。
マスカスタマイゼーションが悪いと言っているわけではない。
顧客は自分の使い方に合った製品が手に入るのだし、企業側は大量生産による規模の経済が活用できるのだから。
問題は、マスカスタマイゼーションでは、あらかじめ決められた部品しか選べないことが多く、ユーザーにとって柔軟性と革新が大きく制限されてしまうことだ。
たとえばデルのコンピュータでは、好みのDVDドライブを選ぶことができるが、何を選んでもDVDドライブでしかない。
本当のプロサンプションとは、もっと早い段階の設計プロセスにまで深く関与するものであり(レゴの次世代型マインドストームなどがその例)、また、ユーザーがハッキングやリミックスをたやすく行える製品を意味する(マッシュアップ)。

管理統制は不能

企業が許そうが許すまいが、ユーザーは、自社の製品をユーザー自身の革新のプラットフォームとして使うようになる。
iPodやPSPの例を見ればわかるように、コラボレーションと情報共有によって付加価値を生む方法を開発するのだ。
そのうち、価値は自社の製品やサービスからユーザーが情報を使って何をするかに移っていく。
そのとき、ユーザーと共にいなければ、ユーザーは自社を飛び越える方法を開発し、競合他社にチャンスを与えてしまう。
つまり、すべてを失い、プロシューマー寄りの競合他社にとられるよりは、管理体制を部分的に手放したほうがましという事態にならざるをえないのだ。

ツールキットと環境整備

固定的で変化しない製品など、今後は無意味である。
いずれにせよユーザーは製品をプラットフォームとして使う。
それなら、先回りするほうがいい。
製品をモジュール構造にする。
再構成を可能にする。
編集可能にする。
顧客による革新とコラボレーションができる状況を作る。
場を提供する。
ユーザーフレンドリーなツールキットを用意する。
製品に付加価値をつける原材料を提供する。
リミックスや共有をしやすくする。
我々は、これをプロサンプション対応設計と呼ぶ。

参加してピアとなる

プロサンプションの世界を経験すると、本当のビジネスは、最終製品を作ることではなく革新のエコシステムを作ることにあるとわかるはずだ。
そうであれば、IBMがオープンソースに参加したように、このエコシステムに参加すればいい。
IBMはリナックスから価値を収穫したが、リナックスエコシステムを傘下においたわけでもなければ、管理統制したわけでもない。
セカンドライフも環境を用意しただけで、価値の創造は99%をユーザーが行った。
プロサンプションが成熟したら、ユーザーを顧客としてではなく、ピアとして扱うことになるはずだ。

成果を共有する

自分たちが生みだしたものに対し、その所有権と成果の一部は自分がもつべきだとユーザーは考える。
参加がユーザーにとっても利益となる仕組みができれば、豊かでダイナミックなエコシステムによって成長と革新を続けることができる。
共産主義だなどと考えないこと。
イーベイのミクロ経済を思いだそう。
イーベイは手数料を取っているが、同時に、数十万人がイーベイで生計を立てている。
セカンドライフのユーザーはゲームコンテンツのほとんどを作っているのだから、その知的所有権は自分がもつべきものであり、ゲーム内で資産を売れば現金を得ることもできると考えるのが当然だろう。
ユーザーとの協創を加速し、セカンドライフの仮想経済を成長させ、ユーザーが現金収入を得られる環境を整えているのは知的所有権である。
自社の製品やサービスでは、このような付加価値の創造が不可能だという理由はあるだろうか。

(ドン・タプスコットほか「ウィキノミクス マスコラボレーションによる開発・生産の世紀へ」日経BP社 2007 236-239ページより)

Wiiリモコンはきっとこれからのユーザーインタフェースデバイスの主流になるだろう。
僕たちは、それに新たな機能と新たな価値を付加するために努力している。

だから、僕らのような外部の人間にもプロサンプションに参加させて欲しい。
もし可能でしたら、Wiiリモコンと拡張コントローラの通信の暗号化のルールを教えてください>任天堂さん。
お礼に画期的なサービスのアイディアをご提供しますよ。

投稿者 nagao : 23:10 | コメント (214) | トラックバック

2007年02月27日

議論というコンテンツ

大変ご無沙汰しております。
昨年の11月にブログ用のサーバーが故障して、データの復旧等に時間がかかってしまい、今日までブログの更新ができませんでした。
また、よろしくお願いします。


これまで、僕のいる研究室では、ずっとミーティング(メンバー全員の参加するゼミ)の記録を取り続けてきた。
それは、ミーティングにおけるコミュニケーション、特に議論を、再利用可能なコンテンツとするためである。
その考えがようやく実現されるようになった。

一部のコンテンツを公開しているので、興味のある人はここから入って見てください。


この実現のためには、ずいぶんと紆余曲折があった。
まず、ミーティングを詳細に記録するということの意義を学生たちが理解するのに時間がかかった。
確かに、いつもレベルの高い充実した内容を話し合っているのなら後で見直してみても役に立ちそうだけど、たいていの場合、学生たちの発表や議論はぐだぐだである。
だから、そんなものを記録しても意味がないし恥ずかしいだけだ、と思ってしまうのも無理はない。
しかし、ぐだぐだの議論の中にも光るような発言はあるし、自分の言ったことをすぐに忘れてしまうような人には記録は重要である。
後で、やはりこの議論は記録に取っておくべきだったと残念に思うくらいなら、初めから全部記録した方がよい。

さらに困難だったのは、ミーティングに関わるさまざまなメタデータを効率的に作成することである。
これは僕たちの研究において本質的な部分である。
ミーティングをただビデオに撮って残すだけでは扱いやすいコンテンツにはならないからである。

たとえば、議論を構成する単位である参加者の発言をどうセグメント(分節)化するか、またその発言がそれ以前の発言にどう関係するか、などの情報を比較的簡単なやり方で、機械で扱える形式にする仕組みが必要だった。
さらに、発言の内容をキーワード等で検索可能にする必要があった。

また、一般にミーティングは長くなりがちなので、見るべき部分を効率よく探し出す手段もなければならない。

そして、これはとても重要であるが、これらの機能を実現するための情報を、できるだけミーティングの最中に作り出さなければならないということである。
なぜなら、議論のコンテンツの作成には参加者全員の協力が必要であるが、それはミーティングの最中ならばほぼ確実に得られることがわかっているが、その終了後に得られるかどうかはまったく保証されないからである。
機械が自動的に生成できるものならばいつ実行しても構わないが、人間の労力を少なからず必要とする場合は、それが十分に引き出せる機会はきわめて限定される。

そこで、僕はミーティングルームの設計から考え始めた。
やはり集団で知的作業を行うときに最も効率がよいのは時間と空間を共有することだろう。
それに僕はテレカンファレンスのような、遠隔にも関わらず時間を同期しなければいけない状況が嫌いであり苦手である。
どんな手段を使っても相手の文脈がうまく伝わらないし、無理して伝えたところで空間をありのままに共有するのには遠く及ばないからである。

ミーティングルームでは考えられる限りの文脈情報が効率よく記録できるようにしようと思った。
また、できるだけその空間が窮屈で不快にならないように開放的な雰囲気にしようと思った。

その結果は、僕が描いた以下の図面に現れている。

meeting_space.jpg

通常は会議室の壁側に設置されるプロジェクタスクリーンが、ここでは部屋の入り口付近にある。
これは、スクリーンを降ろすとミーティングスペースが仕切られ、ミーティングを始められる雰囲気になり、スクリーンを上げるとオープンな雰囲気になり、広々とした感じになるようにしたためである。
これでは機密的な打ち合わせはできないけれど、大学の研究室ではあまりそういう会議をやらないので、これでよいのである。

また、ミーティングでは参加者全員がお互いの顔が見えた方がよい。
その場合、最もよい配置は円周上に並ぶことである(アーサー王と円卓の騎士みたいですね)。
また、空間を広く使うにはできるだけ円の直径が長くなるようにしたい。
それでミーティングスペースをほぼ正方形に区画できるようにして、一つのコーナーにプロジェクタ用のメインスクリーンがあり、サブスクリーンの大型液晶ディスプレイがその両側にあるような配置を考えた。
2台のサブスクリーンには同じ情報、たとえば、記録しているメタデータ(後述する札やボタンの情報)を可視化したものを表示している。

また、参加者は自分専用のサイドテーブルを使い、PCや紙のノートや次に述べる無線デバイスを置けるようにした。

議論を構造化するために、僕たちはいくつかのデバイスを開発した。
一つは議論札と呼ばれる札型のデバイスで、もう一つはd-Buttonと呼ばれるボタンデバイスである。
議論札は2種類あって、赤と黄色に色分けされている。
赤い方は、新しいトピックで議論を始めるときに、上に掲げてから発言を始める。
黄色い方は、同じトピックのままで議論を続けるときに、やはり上に掲げてから発言する。
d-Buttonは赤緑青3つのプッシュスイッチを持ち、発言者が発言を終了するときに緑を、その他の参加者が、現在あるいは直前の発言を支持するときに青を、その発言が理解できない、あるいはそれに同意できないときに赤を押す。
緑は、発言者以外が押すときはマーキングの機能を持ち、あとでコンテンツを見直すときに栞の役割を果たす。
これらのデバイスは赤外線の送信機能を持ち、各参加者の座席の上の方に設置された受信器にデータを送るようになっている。
赤外線受信器はPCにつながっていて、データを受信すると同時にサーバーに転送する。
また各受信器はその位置が登録されており、データを受信するとその位置に合わせて参加者をアップで撮れるようにカメラを向けるようになっている。
さらに、それと同時に議事録作成用ツールに発言者の名前が表示され、発言内容をタイプ入力するフォームが生成される。
これらのデバイスはとても単純なものであるが、すべて僕たちの手作りである。

以上の仕組みを集約させた結果、僕たちのミーティングスペースは以下の図のような雰囲気になっている。

dm_room.jpg

さて、ボタンに関してはまだ許せるとしても、札を上げてから話し始めるやり方には疑問を持つ人も多いだろう。
全方位を撮影するカメラがあって、参加者が挙手したところを認識すればよいとか、カメラをコントロールする人がいて簡単な操作で発言者にカメラを向ければよいとか、そもそもボタンがあるなら全部ボタンでやればよいとか、いろいろな意見があるだろう。

画像認識はやってもいいが精度が100%ではない限り、それだけに頼るわけにはいかない。
また、カメラコントロールを手動でやるのはナンセンスである。
さらに、ボタンを使って発言の開始を知らせるためにはスイッチの数を増やさなければならない。
数を増やさずに、すでにあるスイッチを併用すると曖昧さが生じてしまう(たとえば、発言を開始したいのか、直前の発言を支持しているのか、を区別できない、など)。
PCのキーボードやマウスを使えばよい、という意見はあると思うが、後述する理由で発表者と書記を除く参加者は会議中にPCを使ってはいけないことになっている。
それに、手順を複雑にしたり選択肢を増やしたりすると参加者の負担が大きくなってしまう。

発表者と書記以外がミーティング中にPCを使ってはいけない理由は、集中力の足りない連中がすぐに内職に走るからである。
僕もPCが目の前にあるとすぐ自分宛のメールを確認してしまうので人のことは言えないが。

ところで、札を使うことの明らかなメリットもある。
それは、意見を言おうかどうしようか迷っている状態を周囲の人に知らせることができることである。
発言をしようと思った人は、まず赤か黄色のどちらかの札を持って(強く握らないと赤外線データは発信されない)、前の発言が終わるか、発表が途切れるのを待っている。
それが他の人にも伝わるから、発表者は質問が来ることを予測できるし、他の参加者はすぐにトピックを変えてもよいかどうかを判断することができる。
また、持っている札の色の違いから、議論の次の展開について、発言内容を聞く前におおよその見当がつく場合もある。

加えてd-Buttonは、ミーティング中に参加者の意見を集約させるためにも使われる。
たとえば、多数決をとりたいときに、全員にボタンを押す機会を与えて、即座に集計し議論に役立てることができる。

僕たちのシステムのその他の機能として、レーザーポインタがメインスクリーンのどの位置を指しているかを自動的に認識して記録することができる。
レーザーポインタは参加者全員が自分専用のものを使っている(ただし、ポインタにIDがあるわけではない)。
それによって発言者が指示対象を明確にして、代名詞(主に「これ」)を使うことができる。
現在では、ポインタの指している領域を会議中に議事録に反映させることはできないが、スライドイメージ内の領域と書記の書いたテキスト中の代名詞をリンクさせる方法を検討している。

あと、当然ながら、発表者のスライド情報や発表中にスライドを切り替えた時間や、デモ等を行うときの時間や簡単な内容記述も記録して保存している。

とにかく、僕たちは、ミーティング中に記録できるものはほとんどすべて記録し、ミーティング後に自動的に組み合わせて、閲覧可能なコンテンツとしている。
そのコンテンツの一部を、これを読んでいる人にも見ていただきたいと思っている。

公開されているコンテンツがすべて質の高い議論であるなどと言うつもりはないし、実際にほとんどの議論が(僕の発言も含めて)ぐだぐだである。
しかし、それでもこのような試みは必要だと思うし、会議における議論をもっとうまく活用したいと思っているならば、記録して、その内容を見やすくする工夫をするべきだろう。


最後に、現在Webで公開している議論コンテンツ閲覧システム(Discussion Media Browserと呼んでいる)について、いくつか説明をしようと思う。
このシステムは、3つのビデオプレイヤ、層状シークバーと呼ばれる複数レイヤを持つビデオシークバー、タブで切り替え可能なメインウィンドウ、コンテンツ内の検索用のサイドバーから構成される。
ビデオプレイヤは、上から、参加者映像、発表者映像、メインスクリーン映像(サブスクリーンはその場にいる人が見るだけのものなので記録していない)を表示している。
層状シークバーは、スライドの切り替わり、各議論のセグメント(開始時間と終了時間)、どのボタンがどのタイミングで押されているかを示す情報、検索と連動して表示される検索結果の出現時間に関する情報、議事録内で頻出する単語の出現時間に関する情報(表示する単語数は検索サイドバーで変更可能)をそれぞれ異なる層のシークバーで表すものである。
ビデオの現在時間を表示するスライダーをドラッグするとビデオのサムネイルが変化してシーンを選択する手がかりとなる。
また、シークバーの任意の部分をクリックするとその部分のビデオが再生される。
クリックせずにマウスポインタをロールオーバーするとそれぞれのシークバーに関連した情報がポップアップする。
特に複雑なのは議論に関するシークバーで、任意の議論セグメントにマウスを当てると、その議論セグメントに含まれるすべての発言の発言者名と頻出キーワードなどが表示される(導入発言は特に重要なので、文字制限ぎりぎりまで表示する)。
このポップアップウィンドウ内で発言者名をクリックするとその発言のビデオが再生される。

メインウィンドウは、テキストとスライドイメージを含む議事録表示と、議論のセグメントや発言間の関係をグラフ化した表示をタブで切り替えることができる。
議事録ビューでは、スライドや発言がビデオとリンクしており、付随して表示されるPlayボタンをクリックすると該当する部分のビデオが再生される。
キーワード検索するとマッチする部分がハイライトされる。
また、グラフビューでは、Flashを使って発言間の関係や議論セグメント間の関係が表示される。
特に、その発言がどの導入発言に関連しているか、その発言と直接関連する発言はどれか、などが一目でわかるようになっている。
当然、発言ノードはビデオとリンクされており、クリックすると該当する部分が再生される。

なお、メインウィンドウの内容は、ビデオの再生時間とシンクロして自動的にスクロール・ハイライトされる。

検索サイドバーには、その名の通り、検索要求を入力するフォームや、検索結果からビデオを見るためのボタン等が用意されている。
また、参加者一覧がプルダウンメニューで示されており、特定の人の発言のみを簡単な操作で見ることができる。
キーワード検索は、書記の記録した発言内容以外に、スライド内のテキストも同様に対象とすることができる。

このように、いろいろと豊富な機能が搭載されている。

僕たちが次に作ろうとしているのは、このコンテンツをミーティング以降の知識活動で効果的に活用する仕組みである。
議論コンテンツには特定の個人のアイディア以上のものが含まれていることが多いので、それをうまく活用すれば、個人が一人で黙々と考えた以上の成果が得られるだろう。
だから、議論コンテンツを引用し、派生させて、より発展させたアイディアを含むコンテンツが創造できればよいと思う。
そのための仕組みについては、また別の機会に書いてみたいと思う。

投稿者 nagao : 02:26 | トラックバック

2006年09月30日

Webの望ましい進化(後編)

長いのに読んでいただきどうもありがとうございます。
それから、ringoさん、トラックバックどうもありがとう。

今回で一応完結です。
でも、いつかこの続きを書いてみたいと思います。


3.テキストコンテンツの復活

私はテキストコンテンツの衰退は、人間の賢さの停滞でもあると考えている。
人間は、ビデオや漫画や音楽などに比べて、テキストコンテンツにより多く頭を使うだろう。
よい文章を読み書きすることで人はより賢くなっていくのである。

脳トレなんてくだらないことをやっていないで、他人に読んでもらえるようなよい文章を書く練習をすればよいだろう。
よい文章を書くためにはそれなりによく考えたり他人の書いたものを参考にしなければならないからトレーニングとしては最適である。

だからテキストコンテンツが衰退して、その消費がほとんど時間の浪費にしかならないような状況は非常にまずい。
何とかしてテキストコンテンツの復活を目指さなければならない。

テキストコンテンツを復活させるアプローチは少なくとも2つ考えられる。
一つは、バイナリーコンテンツと組み合わせることである。
つまり、コンテンツのマルチモーダル化である。
図表のない論文がわかりにくいように、また登場人物の台詞だけで背景を説明するドラマがつまらないように、言葉は重要であるがそれだけではインパクトに欠けるのである。

だから、テキストコンテンツを他のコンテンツと関連付けることによってリッチにしていくことはとても重要である。
そして、他のコンテンツの意味に関するアノテーションから、テキストの意味も推論可能になり、その結果、意味を考慮してテキストコンテンツを評価できればよいのである。
そのためには、それら関連付けられたバイナリーコンテンツに、引用しているテキストコンテンツとは独立にアノテーションが付与できる必要がある。

もう一つのアプローチは、よりストレートであり、それゆえに実現が困難なものである。
それはテキストの意味を厳密に分析して機械的に処理可能にするということである。

そのための手段に言語的アノテーションがある。
言語的アノテーションは、文書や文の構造と、語と語の関係(代名詞の照応などの関係を含む)や語と語義(word sense)の関係を明確にして、文書の(機械による)正確な処理を促進するものである。

以下の図に示すように、文の構造をグラフ的に表示して編集できるエディタによって、言語的アノテーションは比較的容易に作成できる。
これは、ユーザーがWebページ内の任意のテキスト領域を選択し、機械的な解析を行った結果を修正することによって行われる。
たとえば、グラフのノードに当たる語の連結先(係り先、被修飾語)をドラッグ&ドロップで変更することで文構造を修正することができる。

linguistic_annot.jpg

図5:Webページ内の任意のテキストへの言語構造のアノテーションエディタ

また、以下の図に示すように、語義を定義した辞書を用いて任意の語の語義を検索し、複数の候補が見つかった場合は、ユーザーが適切なものを選択することによって行われる。

sense_annot.jpg

図6:日本語の場合の言語構造および語義のアノテーションエディタ

言語的アノテーションには高度な判断が必要な場合もあるが、基本的には対象となるテキストの言語を母国語とする人間ならば訓練次第で誰でも可能なものである。

当然、言語は変化していくものだから、辞書もその言葉が使われた時代に依存するものである。
言語的アノテーションの過程において、辞書の内容が適切でないと判断された場合は、語義を追加して定義を与え、その新しい語義をアノテーションとして付与することになる。

Wiktionaryのように、新しく定義された語義とそれが付与された例文を共有し、複数の人によって語義の定義が修正されていく仕組みが必要である。

言語的アノテーションはFolksonomyに比べるとはるかに複雑な作業である。
基本的に特別な言語的知識を必要としないが、多少の慣れと比較的高いモチベーションが必要である。
そもそもわれわれは普段、文の言語構造や語義を意識してテキストを読み書きしているわけではないので、突然それを意識しろと言われてもなかなかできるものではないだろう。
しかし、ツールによって潜在的な問題を顕在化して見せることで、人間にそれを解決することを促そう、ということである。

言語的アノテーションが付与されたテキストコンテンツはそうでないものに比べてはるかに機械的な処理が容易である。
そのためコンテンツの意味を考慮したさまざまなアプリケーションが実現できる。

私の考える「テキストコンテンツ復活」のシナリオはこうである。

まず、言語的アノテーションのためのツールを公開し、誰でもやろうと思ったらいつでもできる状態にする。
それと同時に、言語的アノテーションに基づくさまざまなサービスを公開する。
それはたとえば、文書の意味検索、分類、要約、翻訳、パラフレーズ(専門用語をわかりやすく言い換える、など)、(読み間違いのない)音声化、リコメンデーション(ユーザーの興味に合わせた推薦)などである。
十分にそのメリットがわかる状態にして、Wikipediaのように、地道に言語的アノテーションを増やしていく。

これは、Folksonomyあるいはソーシャルブックマークのように安価なものではないから、貢献者はなかなか増えていかないだろうと思うが、より理想的なWeb環境を希求する人たちはきっといるだろうから、そういう人たちが気軽に入ってこれる入り口を作るべきだろう。

アルファブロガーと呼ばれる人たちが、ブログをまともな読み物と多くの人に認知してもらうことに貢献したように、アルファアノテータと(後になって)呼ばれるような人たちは、テキストコンテンツに主観的評価や感想とは異なる、言語的分析結果を加えて、そのコンテンツの価値の向上に貢献してくれるだろう。

無論、すべてのテキストコンテンツに必ず言語的アノテーションが付随していなければならないわけではないが、言語的アノテーションのないテキストコンテンツは、その正確な意味を考慮して検索や分類をするのが困難である。
その結果、時間にある程度余裕のある人でない限り、そのテキストコンテンツをまじめに読んでくれる人はほとんどいなくなるだろう。

ここで誤解すべきでない点は、テキストコンテンツに言語的アノテーションを関連付けて共有することと、タグやコメントを付けてソーシャルブックマークへ登録することは単に情報の粒度の違い以上の本質的な違いがあるということである。
タグやコメントのように言語的アノテーションに個人の恣意性がまったく含まれないわけではないが、それは可能な限り客観性を持ってコンテンツの内部構造の多義性を解消する役割を持っている。
コンテンツの意味を考えるためには、コンテンツの部分や内部構造に触れないわけにはいかない。

言語的アノテーションを用いることによって、ある人がある状況で読むべきテキストコンテンツを選び出すための一般的な手段が提供されるだろう。
それによってテキストコンテンツは復活するのである。


4.人間が賢くなるためにWebがなすべきこと

さて、Webの望ましい進化とはどのようなものか考えてみよう。
私は、まず、バイナリーコンテンツの任意の要素に関するアノテーションとそれに基づく要素単位の検索(たとえば、映像のシーン検索)があたりまえのものとして組み込まれることが挙げられると思う。
次に、ライフログのオーサリング技術が発展し、SNSやGoogle Earth(の発展形)などと簡便なやり方で結び付けられることが考えられる。

そして、最も重要なものとして、テキストコンテンツへの言語的アノテーションの仕組みとその応用が、現在のFolksonomyやWikipediaを上回るアテンション(と貢献者のモチベーション)を獲得しているということがあると思う。
セマンティックWebの貢献者が現在どれだけいるのかわからないが、彼らがコンテンツの意味の問題を真剣に考えているならば、喜んで言語的アノテーションに貢献してくれることを期待している。

もちろん、言語的アノテーションを誰にでも扱えるものにするためには、これから開発しなければならない技術がまだいろいろある。
しかし、原理的に不可能だと思われるものは何もない。
つまり、がんばればいつかは必ずできることなのである(アテンションが集まるかどうかは偶然の要素も強いが)。

ただ、Webを、さらには人間社会をよりよいものに変えて行きたいと思うような人々は今後増えていくのだろうか。
Webの参加者はその進化に積極的に貢献してくれるのだろうか。
それについてはまったくわからないし、私はそれをただ期待することしかできない。

しかし、Web誕生に続き、もう一度奇跡が起こって、Webがまっとうな進化を遂げてくれるならば、人間はようやく知能増幅器と呼べるような道具を手に入れることができるだろう。

それによって、人間は今よりもっと賢くなれるだろう。
人が賢くなれば、その人の社会との関わり方も変わってくる。
積極的に政治に参加できるようになるだろうし、巧妙な犯罪や洗脳から自分や家族を守っていけるようになるだろう。
教育問題も少子化もニートも、人々がみな一様に賢くなっていけば、大部分は解決されるだろうと私は(きわめて楽観的に)考えている。

現在では、強者と弱者の違いは、たいていの場合、賢者と愚者の違いである。
もちろん、身体的な要因もあるだろうが、身体的なギャップは賢さによってある程度補えると思う(これは無論、虚弱なのはその人が愚かだからだ、などと言っているのではない)。

賢さの差が明確になったとき、賢い者は次の2つのどちらかの行動をとるだろう。
他の人との賢さの差を広げようとするか、狭めようとするか、である。

前者は、自分たち以外の人の思考を停滞させようとする、たとえば洗脳である。
これはマスメディアやそれに類するものに多い。
巧妙な詐欺もその一種である(フィッシング詐欺などはその典型である)。

後者は、人の思考を活性化させ、もっと頭を使うように働きかける、つまり教育である。
教育とは、考えるという経験を促進させるものである。
直接教わった知識よりも自分で考える経験の方がはるかに重要である。

社会全体をよくするためのツールは、賢さの差を拡大させるようなものにはならないだろう。
また、賢くなろうとする万人が利用可能なものであるべきだろう。
つまり、特定の集団が独占するようなものではなく、公共物であるべきである。

Webはまだまだ普及率が十分ではないと思う。
たとえば、TCP/IPの発明者(つまりインターネットの生みの親)の一人ヴィントン・サーフはこう言っている。

「地球上にはネットを使っていない人々が50億人もいるのです。この人たちが加わることで、予想もできない大きな変化が起きますよ。ネットのユーザーはまだ世界で10億人、世界人口の16%です。それだけでも、とてつもない変化を体験しました。これからさらに利用者が増えるにつれて、情報量は爆発的に増え、ネットそのものが姿を変えていくのです。」(日経ビジネス 第1359号(2006.9.25発行)より)

しかし、Webは参加者が誰でも自由に利用できる公共物になりつつあると思う。
もちろん、Web上でビジネスをするのはよいし、そうしないと運用にかかるコストをまかなうことはできない。
しかし、Webの参加者全員が特定のビジネスと無関係に、自由に活動を行うことができる。
そのような場が国境を越えて存在するということは、人類にとってとてつもなく大きなメリットである。

だから、人間がもっと賢くなるためにWebが有効なツールとなるべきである。
YouTubeのようなサービスはとても魅力的で、コンテンツも豊富で、面白くてしょうがないのであるが、それを見て自分が賢くなったかというと全然そんなことはないのである。
それは、人気のあるブログを読んでいるときもだいたい同じである(人気があり、かつそれを読むことで読者が賢くなれるコンテンツもまれに存在するが)。

これ以上貴重な時間を浪費するくらいならWebを見るのをやめる(私は昔ニュースグループを日常的に読んでいたときにそう思って、いっさい読むのをやめた)なんていう人が続出する前に、Webが私の考えているように進化するとよいのだが、こればかりはどうなるかまったく予測がつかない(無論、そのための努力を惜しむつもりはない)。

Webのテレビ化なんてことは何としても回避しなければならない。
特定の個人や組織が必要以上に支配力を持つような状態は非常にまずいと思う(要するに、MicrosoftやGoogleのこと)。
自分をGoogle信者などと言ってGoogleを礼賛する人は多いようだが、それら組織が、Webを人が賢くなるためのツールにしようとしているのかどうか、時間をかけて慎重に吟味していただきたいのである。

投稿者 nagao : 00:02 | コメント (225) | トラックバック

2006年09月28日

Webの望ましい進化(中編)

2.バイナリーコンテンツとライフログ

バイナリーコンテンツとは、テキストデータを含まず、本来アナログ情報であるものをコンピュータで扱えるように無理矢理デジタル化したものである。
そのおかげで、Web上のコンテンツはさらに多様になり、格段に面白いものになっていった。

バイナリーコンテンツの処理は当然ながらテキストコンテンツの処理とはまったく異なる。
バイナリーコンテンツそのものから日常的な検索の対象となる情報を抽出するのは非常に困難だからだ。
画像の色やテクスチャで類似のものを検索するとか、音声波形の類似するものを検索するとか、コンテンツそのものを自動解析して検索の手がかりにするという研究は山のように存在するが、特殊な状況を除いて、日常的にはそんな検索はほとんどやらないだろう。

やはり、人間にとって日常的な検索は、適当に思いついたあるいはどこかで見聞きした言葉による検索である。

「検索というのは自分のやりたいこと・やっていることを機械に伝達する作業だ」と言った人がいるらしいが、それはやはり人間にとって都合のよいメディア(つまり言語)を用いるのが自然だろう。
これはおそらく今後もずっとそうだろう。

言葉を使わない検索もある、つまり、明示的な検索要求のない検索であり、たとえば、リコメンデーション(推薦)である。
これは、昔プッシュテクノロジーという名前で呼ばれ盛んに研究された。
プッシュテクノロジー(PointCastというシステムがその代表例)は、ユーザーの嗜好や(動的に変化する)興味をうまく認識・反映することができなかったためすたれてしまった(もっとも、RSS Feedやソーシャルブックマークの機能によってリバイバルの兆しはあるが)。
あ・うんの呼吸で適切なコンテンツを提示するシステムは実現されていないし、今後もできないだろう。


さて、言葉に基づくバイナリーコンテンツの検索は、コンテンツへのアノテーションあるいはメタデータを用いた検索である。
「あなたはグーグルのパシリ?(Are you Google's gopher?)」というBBCの記事で紹介されているGoogle Image Labelerのように、画像検索のためのメタデータ(検索用タグ)を大量に集めるための努力はさまざまな形で行われている(それにしてもGoogleは実に頭がいい)。

そこでFolksonomyなどという造語も生まれた(ちなみに、folk(民衆)とtaxonomy(語の階層に基づく分類)の合成語である)。
Folksonomyなんてもっともらしい用語にすると何か新しいことを言っているようだが、全然そんなことはない。
情報の整理をするためにコンテンツに検索タグをつける、などということはごく自然なことだし、ネットワークでタグを共有することも、Webの文化においては当然のことである。
それが、なぜ最近になって注目されるようになったのか。
それは、機械的なインデキシングによる検索への不満が顕在化してきたこと、機能を絞りこみ人間の手間を最小限にしたこと、Webブラウザで簡単に作業ができ、プラグイン等のインストールを不要にしたこと、Webユーザーの参加者意識が向上してきた(つまり、面倒でも人の役に立つことを積極的に引き受ける)こと、などが要因だと思う。

たとえば、2000年頃に公開されたThirdVoiceというシステムは、任意のWebページにコメントを付けたり(そのコメントに返信することもできた)、評価点やタグに類するいくつかのキーワードを付与することができた。
これがなぜすたれたかというと特別なプラグインをインストールする手間があったのと、多くの人が特定のサイトに悪口を書き始め、そのサイトのオーナーからクレームが付いたためである。
よくサイトにコメント欄をつけてユーザーからのフィードバックが得られるようにすることがあるが、これは都合が悪くなったらコメント欄を閉鎖することができるため、サイトオーナーが制御できる点がよいのだろう。
ThirdVoiceは(悪口を含む)コメントを任意のページに付けることを許し、ユーザーがそのページを閲覧するときコメントも連動して表示するという余計なことをしたため、すたれてしまったのである(まあ原因はそれだけではないかも知れないが)。
単純にキーワードだけを付ける仕組みにして、オンデマンドの検索サービスを公開していれば、今日のソーシャルブックマークの偉大な先駆者になっていただろう。


ところで、最近のYouTubeの勢いを見てもわかるように映像コンテンツへの関心は驚くほど高くなっている。
そしてその勢いはさらに増していくだろう。
映像ほど人間の直感に訴えかけるものはないからだ。

映像コンテンツのオーサリングは今よりずっと簡単なものになるだろう。
それによって映像コンテンツの氾濫が現在のテキストコンテンツと同程度になることは容易に想像がつく。

では、同じように映像コンテンツも衰退するのだろうか。
私はそうならないと思う。
映像コンテンツ(に限らずバイナリーコンテンツ一般)は、コンテンツ制作時あるいは制作後の(第三者を含む)人間の何らかの努力によってしか、便利なものになり得ないからである。
そのことに気づいた人たちが継続的な努力を行っていけば、どれほどの量の映像コンテンツがWeb上にあってもその価値が下がっていくことはないだろう。
映像コンテンツを好きな人は多いし、その価値を高めるための努力をいとわない人も多いだろう。
それは、映像コンテンツほど人を楽しませてくれるものはそうないからである。

ちなみに、コンテンツの価値が下がらないということとゴミのようなコンテンツが増えていかないということは同じではない。
もちろんゴミは増えていくに決まっている。
しかし、ゴミとそうでないものを区別する一般的な方法が発明されるだろう。
その発明によって、コンテンツの(全般的な)価値がある程度のところで保持されるのである。

ここで、映像コンテンツの価値を高めるための私たちの活動を紹介しよう。
映像コンテンツの価値を高める最も有効な方法は、その映像に関してできるだけ多くの人がうんちくや感想などを語り、その語られた内容を映像(の特定のシーン)と関連付けて蓄積していくことである(実は、それだけでは不十分なのだが)。

私たちの研究室で開発されたビデオブログシステムSynvieは、ビデオの任意のシーンに関してブログで思う存分語り合うためのシステムである。
以下の図に示すように、Synvieを使ってビデオを見ながらちょっとした操作をすれば、ビデオ内の任意のシーンを引用したブログが書ける。

video_annotation.jpg

図1:映像シーンに対するアノテーションおよび視聴インタフェース。ユーザーはビデオの任意の時間に対してコメントを付与可能である。また、閲覧中の映像に同期したアノテーションを表示可能である (Courtesy by Daisuke Yamamoto)

videoblog_edit.jpg

図2:ビデオブログ編集インタフェース。シーン伸縮ボタンを押して対象シーンを時間的に前後に伸縮させることによって、正確に対象シーンを提示・選択可能であり、対応するコメントの編集も可能である (Courtesy by Daisuke Yamamoto)

引用によって他のコンテンツについて語ることは、単純にそのコンテンツについて語るよりも、ずっと人に伝わりやすく、また機械によって内容に関する情報を処理するためにも有用である。
指示代名詞の指し先があいまいな文章よりそうでない文章のほうがわかりやすいのと同様である。

ブログ(エントリーのパラグラフ)とビデオ(シーン)は、引用・被引用の双方向リンクで自動的に結ばれる(被引用のリンクをシーントラックバックと呼んでいる)。
ブログのテキストを解析し、さらに人間の手を少し加えれば、ビデオに関する意味的な情報が抽出できる。
人気のあるビデオコンテンツは、きっと多くの人が引用して語ると思われるので、単純にリンクの数をカウントするだけでもそれなりに見るべきビデオシーンの選択に役立つだろう(もちろん、引用されている部分だけを見れば十分という保証はないが)。
また、ビデオを見ながらブログ等のテキストを読んでいれば、その理解がより深まるだろう。

キーワード検索やランキングに関しては、引用のリンクとブログテキストだけでは不十分なので、検索タグの抽出などの工夫が必要であるが、これについてもよさそうなやり方をいろいろ試しているところである。


ビデオブログの発展形(厳密にはビデオブログと他のコンテンツの複合体)にライフログというものがある。
ライフログは、もともと(環境設置タイプや携帯・装着タイプの)ユビキタスなカメラが不特定の人物の映像を継続的に撮影し続ける状況で、特定の個人に関連する映像をかき集めてくると、その人の人生の記録を構成することができる、というコンセプトであるが、監視されているという印象が強く、どうも気持ちがよくない。
しかし、人の人生を丸ごと記録にとって再利用可能にするというのはとてつもなく面白い試みであろう(同様のものにMicrosoftの研究者によるMyLifeBitsという研究もある)。

ライフログはその人物がこの世を去ってから特に大きな価値を持つことになると思う。
生前はプライバシーの問題で公開できる部分はかなり限定されると思うが、死後はその遺族の許諾のもとに(場合によっては編集を行ってから)より多くの部分が公開されることになるだろう。

あるビデオブログが、もし自分で撮影した自分の体験のビデオを引用して語っているものだとすると、それは当然ライフログの一部とみなすことができる。
体験に何らかの意味を与えることができるのはその体験者だけだから(第三者が分析して何らかの解釈を与えることは可能だが)、その人の書いたブログは映像の正確な意味を記述するテキストコンテンツということになるだろう。

私は、自分の子孫に自分のことを長く記憶してもらうためにライフログを残す人がこれから多く現れると思っている。
その結果、Web上にライフログが氾濫し、やはり相対的に価値が下がっていくことも考えられるが、私はライフログの価値はある水準を維持できると思っている。
それは、やはり制作にはそれなりのコストがかかるし、人生の記録そのものなのだから嘘はつけないだろうし(ことさらにかっこつけようとして、自分の体験を捏造しようとする人はいるかも知れないが、映像などの文脈情報も含めて捏造するのはかなり骨が折れる作業だろうから、あまりにもコストパフォーマンスが悪くてあきらめるのではないだろうか)、映像等によって客観的事実が提示されるので資料価値もそれなりにあるだろうからである。

ライフログの評価はその人物に対する評価とその人の体験そのものの評価によって構成されると思う。
ライフログによって、その人の知られざる側面を知ることによって、その人を再評価することもあるだろう。
基本的には、その人の知名度や人気がその人のライフログの評価に影響を与えることは間違いがないと思う。
「この人のことをもっと知りたい」「この人の体験を追体験したい」と思う人がいる限りライフログの価値は失われることはない。

ただし、これは特定の人(特に有名人)のライフログのみが価値が高く、それ以外は低いということを言っているのではない。
ライフログは体験の集積だから、参考になる体験もきっと含まれているだろう。
そういう体験を適切に検索する仕組みがあれば、たとえ無名人のライフログであってもきっと有益なものになるだろう。

ライフログの主要な部分はやはり映像コンテンツだろうが、ライフログを構成するコンテンツは他にもいろいろある。
私が考える映像以外の主要なライフログの構成要素は、実世界の位置と時間である。
位置はGPSやGoogle Mapsみたいな仕組みがあれば容易に関連付けられる。
時間の関連付けも自明だろう。
ライフログは必ず時間軸上にマップされるものなのだから。

ライフログのオーサリングに関しては、画期的なものが発明されるだろう。
実は、私たちも一つ考えている。
それは、位置情報を含む文脈情報と前後左右の映像を暗黙的に記録する個人用の乗り物である。
もちろん、乗り物でなければならないことはないし、乗り物ではダメな場合もあるだろう。
しかし、それでも個人用の情報化された乗り物の持つ可能性は非常に大きいと思う。

以下の図に示すように、乗り物に搭載された複数のカメラとマイクは暗黙的に搭乗者の周辺の記録をとっていく。

at7_cameras.jpg

図3:個人用知的移動体ATとそれに搭載された複数のカメラ

また、搭乗者は手元のジョイスティックを使って前方のカメラを操作して、その時点で特に注目している対象を撮影する。
当然、時間と位置も記録している。

また、以下の図のようなインタフェースを用いて、それらの情報を統合し、さらに体験の内容をテキストで記述することによって、(私たちの考える)ライフログが制作される。

lifelog_edit.jpg

図4:ライフログ編集インタフェース。メインカメラの映像と地図とテキストを簡単な操作で結び付けることができる (Courtesy by Kazutoshi Kozakai)

ライフログの共有は、もし制作者(つまり体験者)が生きている間にやる場合はプライバシーの問題を考慮して、SNSのように親しい間柄での公開が中心となるだろう。

1994年頃にMITメディアラボの研究者がWWW (Wearable Wireless Webcam)という研究をやっていた。
これは装着型カメラで自分の見ているものを撮影し、無線で送信してリアルタイムにWebで公開するというものである。
なんでそんなことをやっているのかと聞いたら、こんなことを言われた。

「今はいたるところにカメラがあって知らぬ間に自分の映像が撮られている。それは監視であって撮られる側の都合など考えちゃいない。ならば、自分も撮って公開して一方的な監視に対抗してやるのだ。」

そのときはこの理屈がよくわからなかったのだが、今では少しわかる。
人々のプライバシーをある程度犠牲にして個人および組織を守るという考えはよいのだが、プライバシーを犠牲にする当人である個人が自分に関わる情報をコントロールできないのでは非常に困ったことになる。
悪用されるかも知れないからだ。
だから、自分の生活に関わる情報は自分で作成して自分で公開する、それによって発生する問題にも自分で責任を持って対処する、という考え方をしようということなのだろう。
私たちの考えるライフログは、同時代の人たちというより、後世の人たちに有効に活用してもらいたいと思って制作するのがよいと思っているが、もちろん、自分を守るため、そして自分の生活を豊かにするために利用できるようにすることも重要だろう。

ライフログは、わざとらしいドラマやくだらないバラエティなどと違って、そのリアルさとまじめさによって多くの人々の心を打つだろう。
フィクションより実話に基づいたドラマの方が見る側の関心が一般に高いのと同様に、人のリアルな生き様には興味を引かれるものが少なくないだろう。

テレビ用の映像コンテンツが今後どんどんWebに置かれていく(YouTubeなどに無断で投稿されるようなイリーガルなものでなく、著作権者が許可したもの)と思われるが、それが徐々にチープで面白くないものになっていくのに反して、個人がありのままの人生を映像等で綴ったものの方が共感できる面白いものになっていくだろう。
そこにライフログの無限の可能性を感じるのである。
最も重要で面白いコンテンツ(ソース)はやはり人間(の生き様)そのものだということかも知れない。

投稿者 nagao : 00:20 | コメント (176) | トラックバック

2006年04月30日

教育者の品格

最近、研究成果報告書(研究費をもらったら必ず提出しなければらない)を立て続けにいくつも書いていたら、報告書以外の文章を書きたくなった。
まったく、こんな書類ばかり書いていたら、さぞつまらない人間になってしまうだろう。
それで、久しぶりにブログを書いてみることにした(4月のエントリーがあれ一つだけなのはあんまりだし)。


今さらだけど、「国家の品格」(藤原正彦著 新潮新書 2005)という本を読んだ。
ついでに、「ウェブ進化論」(梅田望夫著 ちくま新書 2006)も読んだ。
後者に関しては、突っ込みどころがいくつもあるのだけど、それはまた別の機会にしようと思う。

「国家の品格」を読んで、大学生の頃のことをちょっと思い出した。
僕は父親からよく「お前には教養が足りないから、古典をたくさん読め」と言われていた。
「古典ってどんな?」って聞くと、「とりあえず平家物語。夏目漱石や森鴎外もいいな。お前が上等な人間なら、カントやパスカルも読んでみろ」と言われた。
まあ、僕の父は、理科系の人間はたいてい教養が乏しいと思っているし、実際そうなのだと思うけれど、なぜ古典なのか、ということは長い間わからなかった。

最近思うことは、文化的な水準は年々世界的に低下しているのではないか、ということである。
今、古典と言われているものは、長い時間の風雪に耐えて生き残ってきたものである。
それだけのクオリティのものは、もう金輪際生み出されることはないのではないだろうか。

それに先の本にはこんなことが書いてあった。

名作は学生時代に読まないと一生読めないと考えた方がよい。

え、そうなんですか。

ところで、僕の父親は「いわゆる市民革命の最もいけないところは残すべき伝統の大部分を破壊してしまうことだ」とよく言っていた。
僕は市民革命(フランス革命やアメリカ独立運動など)は歴史の必然だったと思っているし、それによって民主主義が生まれたのだと思っている。
そして、民主主義はよいものだと盲目的に信じていた。
でも民主主義は決してベストな思想ではないし、主権在民がベストな政治原則ではない。
まあ、日本は本当に民主主義国家なのだろうか、と思うこともしばしばあるけれど。
それに、社会主義はもっとダメだということがソビエト連邦によって証明されたと思うけれど。

先の本には次のようなことが書いてあった。

もちろん国民が時代とともに成熟していくなら問題はありません。
(中略)
しかし、冷徹なる事実を言ってしまうと、「国民は永遠に成熟しない」のです。
このような事実をきちんと伝えないといけません。
過去はもちろん、現在においても未来においても、国民は常に、世界中で未熟である。
したがって、「成熟した判断が出来る国民」という民主主義の暗黙の前提は、永遠に成り立たない。
民主主義にはどうしても大きな修正を加える必要があります。

いつ頃からか忘れたけれど、僕はずっとアメリカという国を嫌ってきた。
弱いものいじめばかりをしている品格の低い国だからだ。
木造の家屋を大量に焼き払い、数多くの民間人を殺戮するために日本に原爆を投下した国である。
ちなみに、アメリカの一般市民は、「軍事基地を破壊しただけで、民間人は巻き込まれただけだ」という当時の説明を本気で信じているように思われる(実際に複数のアメリカ人からそういう話を聞いた。当然、僕は訂正しておいた)。

それに、僕は英語が嫌いだし、英語が話せれば国際人だと思っている連中が大嫌いだ。
こんなジョークがある。
「2ヶ国語を話せる人をバイリンガル、3ヶ国語を話せる人をトリリンガルと言うけど、1ヶ国語しか話せない人を何て言うか知ってる?」
「知ってるよ。モノリンガルだろ」
「違うよ。そういう人をアメリカンって言うんだ」

日本に住んでいるならちょっとは日本語を勉強しろよ、この馬鹿アメリカ人。

しかし、コンピュータサイエンスの分野で研究するにはアメリカに行くのが一番だと思っていた。
だから、日本IBMの研究所(日本人がアメリカのIBMに新卒で入社することはほとんどない)に入ったし、アメリカの研究所にも何度か行った。
ソニーCSLに移ってからは、1年間アメリカの大学に滞在させてもらった。
楽しいこともあったけれど、どうしてもアメリカという国を好きにはなれなかった。

ただ、悔しいけれど、アメリカには科学技術の発展とそれに基づく経済の発展に関するしっかりした国家的な戦略が見える。
当然、NASAの宇宙開発事業だって道楽でやってるんじゃない。
ちゃんと、アメリカがナンバーワンになるためのシナリオに組み込まれている。
日本はアメリカを真似しようとしているだけで、日本ならではの戦略などとても見えない。
科学技術分野でアメリカにキャッチアップするのは重要なことだと思うけれど、だからと言って国家や国民がアメリカナイズしてしまったら、とても大切なものを失ってしまうだろう。

先の本に以下のような話が載っていた。

十年ほど前に、スタンフォード大学の教授が私の家に遊びに来ました。
秋だったのですが、夕方ご飯を食べていると、網戸の向こうから虫の音が聞こえてきました。
その時この教授は、「あのノイズは何だ」と言いました。
スタンフォードの教授にとっては虫の音はノイズ、つまり雑音であったのです。
その言葉を聞いた時、私は信州の田舎に住んでいたおばあちゃんが、秋になって虫の音が聞こえ、枯葉が舞い散り始めると、「ああ、もう秋だねえ」と言って、目に涙を浮かべていたのを思い出しました。
「なんでこんな奴らに戦争で負けたんだろう」と思ったのをよく覚えています。

いい話ですね。
僕は、アメリカに住んで、彼らの食べているものを見て、「こいつらには絶対に負けない」と思ったものである。


僕は、戦後日本の初等中等教育(さらに、いわゆる「ゆとり教育」)のおかげで、日本の品格はアメリカの合理主義に毒されて、目も当てられないほど低くなってしまったと思う。
もちろん、すべてアメリカのせいだなどと言うつもりはない。
しかし、当時のアメリカ政府の悪意によって戦後日本の人々の精神はかなり大きなダメージを受けたと思っている(その典型的な例が、悪名高い極東国際軍事裁判である。いいかげんにあの裁判の判決を無効にしてくれ)。

最近、僕の講義を受けている学生から、「教えている内容に何か意味があるのか」という質問を受けた。
僕はこれに論理的に答えようと思ったがやめた。
先の本でも紹介されている会津藩の教えをふと思い出したからだ。
その部分を引用しよう。

江戸時代、会津藩に日新館という藩校がありました。
白虎隊も教えを受けていた藩校なのですが、ここに入る前の子弟に対して「什の掟(じゅうのおきて)」というのがありました。
そこにはこう書いてあります。

一つ、年長者の言うことに背いてはなりませぬ
二つ、年長者にはお辞儀をしなければなりませぬ
三つ、虚言を言うことはなりませぬ
四つ、卑怯な振る舞いをしてはなりませぬ
五つ、弱いものをいじめてはなりませぬ
六つ、戸外で物を食べてはなりませぬ
七つ、戸外で婦人と言葉を交えてはなりませぬ

(中略)
そして、これら七か条の後は、こんな文句で結ばれます。

ならぬことはならぬものです

僕も今は博物館になっている日新館を見学に行ったことがあるので、この七か条はよく覚えている。
この本の著者と同じく、僕もこの七つ目はちょっと当時としてもどうかな、と思う。

著者は「重要なことは押しつけよ」と主張している。
論理的に説明する必要なんてない、本当に重要なことは親や教師が価値観を一方的に押しつけるべきだ、と言っているのである。
教師が学生に講義において教えている内容に意味がないはずがない。
にも関わらず、「それは意味があるのか」などと質問してくる連中に理屈で応じる必要などないのだ。


ところで、日本のことを未だに経済大国だなどと言って、経済的な発展こそ国家が目指すべきことだと思っている人は結構いるのではないだろうか。
資本主義経済だってかなりひどいものじゃないか。
共産主義がそれよりまずいことはわかるけれど、市場原理主義が正しいと思っている人間は、本当に所得格差がどんどん拡大していくことを是としているのだろうか。
市場原理主義を捨てろとは言わないけれど、株式投資なんてくだらないこと(投資信託なんて特にひどい)を一般市民にもっともらしく勧めるのをやめろ、と言いたい。
小中学校で「経済にもっと関心を持つべきだ」なんて戯言(ざれごと)を言わないで欲しい。
大学生だって、生活費を稼ぐためにアルバイトをするのはいいけれど、「勝ち組」「負け組」なんていう、マスメディアが作り出した格差の構図を抗いがたいものと感じて、金儲けを人生の目標とし、「勝ち組を目指せ」なんていう考え方をするのは何とかしてやめさせたいと思っている。

お金なんかではない自分の夢の実現のために会社を興す、とかいうのなら、応援しようという気持ちも湧いてくるけれど、お金を儲けることが手段でなく目的になってしまうのは何とも情けないことだと思う。

最近、僕のいる研究室に、研究を金儲けの手段と考えるような学生が現れ始めてきた。
つまり、「この研究は儲かるのか」とか「ソースコードを無償公開すると開発者に利益がなくなる」とか考えるような学生である。
学生が研究で金儲けを志向するのが悪いということに合理的な理由などない。
品格が下がる、それが理由である。

お前は「役に立つ研究をやる」といつも言っているではないかと突っ込みたい人もいるかも知れない。
しかし、それは研究成果によって直接的に利益を出すことを志向しているのとは違う。
工学とはそもそも「技術を社会の役に立てること」を目的の一つとした学問なのである。
そして、僕は自分は科学者というより工学者であると思っている。

また、僕は大学において、経済的観点で研究の良し悪しを考えたことはない。
もちろん、まともな研究をやるには研究費が必要だから、それを獲得するための仕事もたくさんやっている。
でも、個人的な収入を期待したことはない。
ベンチャー企業を作ろうとも思わないし、アフィリエイトなどで小遣い銭を稼ごうなどというせこい考えもない。

そもそも、自分の収入を優先させるなら、民間企業から国立大学に移る人なんてほとんどいないだろう。
定年が近いとか、リストラされかけているとか、特別な理由があるなら別であるが。

僕は大学に移るとき、「在職及び職務内容等証明書」というのを大学の事務に提出させられた。
それには人事部長の署名入りで退職時の月給を記入させられるのである。
こういうものを提出させるということは、現在の給与額を多少は考慮してくれるのではないかとちょっとだけ期待したものである。
しかし、僕が着任前に再三メールで、給与がいくらになるのか大学に問い合わせても、「決まり次第連絡する」という答えが来るばかりだった。
そして、大学の事務からは、最後まで給与についての返答がなかったのである。
それで、着任時に初めて自分の給与額を知ったときはショックを受けた。
予測をはるかに上回る低さ(この言い方はちょっと変だが気持ちはわかってもらえると思う)だったからである。
僕はこれまで3回転職しているが、そのうちの最後の1回を除き、収入も待遇もそれなりに良くなっていた。
だから、転職して収入が下がったのは初めての経験だった。

こんなことを書いていると、お金に未練があるのかと思われるかも知れないが、僕はただ生活水準をどの程度まで下げなければならないのかを考える手がかりが早めに欲しかったのである。
僕は、自分の収入を今後もそれなりに上げていくにはもう会社に魂を売るしかないのではないかと本気で考えていた。
そして、それによって自分の品格は徐々に下がっていくだろうと思っていた(「品格」という言葉を具体的に思い描いていたわけではないが、今考えるとそういうものだったのだろう)。
会社の論理に自分を完全に適合させるには無理があったし、研究職から離れて管理職に就くのも耐えられないと思った。
そして、何より、僕は自分の品格をこれ以上下げたくないと思ったのである。

僕が大学に移ったのは、いわゆるソフトランディングを目指したためである。
38歳のときに、これ以上今の仕事で収入を上げるのは困難だろうから、今後は急激に収入が下がるリスクを押さえ、家族が生活するのに必要な額の収入をできるだけ長く維持できるようにして、少しずつ生活水準を下げていき、それなりに生活ができるようにしていこう、と考えたのである。
そして、生活水準を大きく変化させないことで、自分の品格をある程度のところで維持していこうと考えた。
そもそも生活に困っている状態では、家族以外の人や社会のことを本気で心配したり、国家のために尽くそうなどと考えたりできないと思ったのである。
また、自分自身の成功を目指すよりも、教育によって社会に貢献していけるようになろうと思った。
教育者というのは自己の利益を優先していたら絶対に務まらない職業だと思っているからである。

このように考えるようになった背景には、自分が現在の日本の国民でいることの意味を考えるようになったことがある。
僕はもしかするとこの国の最も平和で幸福な時代に生きて死んでいくのかも知れないと思っている。

僕の父親も母親も戦争を経験している。
太平洋戦争当時、僕の祖父は東京の日本橋浜町で結構大きな病院を営んでおり、その敷地内に自宅があった。
僕の父親は、少年時代にそこに住んでいたが、1945年3月10日のいわゆる東京大空襲で全焼してしまった。
そのとき、祖父は父に「ここが焼けると近所に火が広がるから、屋根に上って火を消して来い」というとんでもない指令を与え、父はそれを実行しようとしたらしい。
しかし結果的に避難するしかなくなり、家族で落ち合う場所を決め、父は無我夢中で逃げたそうである。
逃げる途中で父が目にした光景は、まさに地獄と呼べるものだったらしい。

僕は実体験としての戦争を知らない(「戦争を知らない子供たち」という歌がありましたね)。
そして、今後おそらく50年ほどは、日本の一般市民が日本と他の国との戦争によって直接的な被害を受けることはないと思っている(思っているだけかも知れないが)。
だから、僕は100年程度のこの国の近代で最も平和で豊かな時代に生きることができるのだと思っている。
そして、それは僕らの先人たちのとてつもない努力と犠牲の上に成り立っているのだと思っている。

僕の好きなSF小説「銀河英雄伝説(通称、銀英伝)」(田中芳樹著 徳間書店 1982)の中の台詞に次のようなものがある。

「恒久平和なんて人類の歴史上なかった。
だから私はそんなもの望みはしない。
だが何十年かの平和で豊かな時代は存在できた。
吾々が次の世代に何か遺産を託さなくてはならないとするなら、やはり平和が一番だ。
そして前の世代から手渡された平和を維持するのは、次の世代の責任だ。
それぞれの世代が、後の世代への責任を忘れないでいれば、結果として長期間の平和が保てるだろう。
忘れれば先人の遺産は食いつぶされ、人類は一から再出発ということになる。
(中略)
要するに私の希望は、たかだかこの先何十年かの平和なんだ。
だがそれでも、その十分の一の期間の戦乱に勝ること幾万倍だと思う。
私の家に十四歳の男の子がいるが、その子が戦場に引き出されるのを見たくない。
そういうことだ。」

僕は、日本の礎を築いた先人たちに感謝し、日本の品格を貶めたアメリカや日本の売国奴たちを憎んでいる。
そして国家に対して僕なりのやり方で恩返しをしたいと思っている。
それはできるだけ多くの学生がまともな社会人になれるように教育することである。

ここで、「国家の品格」の最後のパラグラフを引用しよう。

日本人一人一人が美しい情緒と形を身につけ、品格ある国家を保つことは、日本人として生まれた真の意味であり、人類への責務と思うのです。
ここ四世紀間ほど世界を支配した欧米の教義は、ようやく破綻を見せ始めました。
世界は途方に暮れています。
時間はかかりますが、この世界を本格的に救えるのは、日本人しかいないと私は思うのです。

今や日本人だってそんなに上等じゃないよ、と僕は思っているが、この本の著者は本気でこう思っているのだろう。
僕は、世界を救うなんてことは考えていないけれど、残りの人生の大半の時間を自分の家族と国家のために使いたいと思っている。


そして、僕は父にいつかこう言いたい(今は恥ずかしくて言えない)。
お父さん、僕はあなたの忠告を聞かずに、古典をちゃんと読みませんでした。
ごめんなさい。
僕は、平家物語より銀英伝で「戦うこと」の意味を考え、漱石や鴎外より司馬遼太郎の小説で「人の儚さと強さ」を感じ、カントやパスカルより渡部昇一(渡辺淳一ではありません)の本を読んで「人はどう生きるべきか」を考えています。
僕の教養は所詮その程度のものです。
品格もお父さんには遠く及びません。
ですが、お父さんたちが経験した地獄を見ることなく死んでいくであろう自分の幸せに心の底から感謝して、この国の未来のために自分のできることを精一杯やっていきたいと思っています。

投稿者 nagao : 21:01 | コメント (317) | トラックバック

2005年11月13日

コンテンツがタダになる日は来るか

最近「コンテンツ消滅」(小林雅一著 光文社ペーパーバックス 2004)というアイキャッチなタイトルの本を読んだ。
このタイトルには、「日本沈没」とか「首都消失」みたいなインパクトがある。
似たようなタイトルの本に「科学の終焉(おわり)」というのがある。
思わず手に取ってしまうタイトルである。

この本には、コンテンツ業界の苦悩が切々とつづられている。
1年前に出た本だから、このブログを見ている人の中にもこの本を読んだ人がいるかも知れない。

僕なんかには涙が出るほど懐かしいスペースインベーダの開発者の話などが出てくる。
スペースインベーダ(という名のテレビゲーム)がヒットしたのは1978年である。
僕は当時高校生だった。
そのとき付き合っていた女の子と学校の帰りに喫茶店に寄って遊んでいたのを思い出す。
あまりうまくないけど、いいところを見せようと思ってがんばったりしていた。

このゲームは日本のタイトーという会社の社員がたった一人で作ったものらしい。
開発費は1000万円程度(ほとんど人件費)で売り上げは2100億円だったという。
このゲームのヒットは社会にも大きな影響を与え、ソフトウェアの著作権を成立させるきっかけにもなったという。
当時から、ゲームの無断コピーによる海賊版が問題になっていたからだ。

この本の中で繰り返し述べられていることは、コンテンツという知的財産の創造は、過去の知的財産の共有によって成り立っているということである。
「過去の知的財産を徹底的に理解し、それを材料にありったけのエネルギーと創意工夫を注ぎ込んで、その時代が欲しているものへと再結晶させた」ことによって、すぐれたクリエイターたちは新しい知的財産を作り出してきた、ということらしい。

「創造は常に知財の共有から始まる」のだから、「そうした枠組みやルールがきちんと構築されない限り、デジタル時代の知財共有は創造ではなく崩壊と衰退を引き起こす」のだそうである。

NapsterやKazaaのような著作権者に対価が支払われない仕組みでコンテンツを入手するということは、「大変な熱意と体力とお金を消費して」コンテンツを創造したものたちに対して、正当な報酬を受ける機会を失わせることになり、意欲を減退させ、その結果、新しい時代に合ったコンテンツを誰も楽しめなくなってしまう、ということである。

事実、アメリカの音楽業界の売り上げ高は、1999年をピークに、その後、2003年まで連続的に減少し、ピーク時に比べて3割近く落ち込んだそうである。
その原因として、NapsterやKazaaのようなファイル共有サービスによる海賊版の蔓延があるらしい。
それで、米レコード産業協会はそれらに対して訴訟を起こし、Napsterに対しては勝訴、Kazaaに対しては敗訴している。
この違いは後者が完全P2P型で、サーバーレスであることによる。
つまり、ファイル共有サービスは海賊版の取引に直接関与していないため、その責任は問えず、直接関与している利用者にこそ責任を問うべきだ、ということになったらしい。
2003年4月のことである。

その後、同じ年の9月、同協会は、1日に100曲以上ダウンロードするようなヘビーユーザー261人を抜き打ち的に訴え始めた。
「ある日突然、自分の娘に裁判所から召喚状が届き、親が青くなってレコード会社に謝罪した、というような光景がアメリカのあちこちで見られた」そうである。
この効果は最初のうちは絶大だったそうであるが、数千万人の利用者の中から、せいぜい数百人程度を訴えたとしても、その効果には自ずと限界があった。
実際、2004年7月には、460万人がKazaa等のファイル共有サービスにアクセスするようになった。
これは訴訟前の最盛期とほぼ同じ人数らしい。

このような流れの中に、日本でのWinny開発者の逮捕がある。
これはアメリカの音楽業界がNapsterやKazaaを訴えたような、サービスの合法性を問う民事訴訟ではなく、開発者の犯罪性を問う刑事訴訟である。
こんなことは訴訟大国アメリカでさえ見られなかった現象である。

マスメディアのネガティブキャンペーンのおかげで、この件は非常に間違った報道がなされているようだ。
たとえば、2004年5月10日のCNET Japanの記事では以下のように書かれている。
「京都府警によると、Winnyの開発者は、その動機として「現行の著作権法に疑問を感じていた。そのなかで違法にデジタルコンテンツがやり取りされるのは仕方がない。それなのに企業が新たなビジネスモデルを構築せず、警察に取り締まりを任せている。この体制を崩壊させるには、ネット上で著作権法違反を蔓延させる必要がある」と自らの違法性を認める発言をしている。」
おそらくこれは誰かのでっちあげだろう。

冒頭で挙げた本で紹介されている、Winny開発者の次の言葉はもっともである。
「技術の進化は止まらないし、止めようとしても止まるものではない。技術そのものを有効活用する方向を目指すべきだ。ソフト開発が犯罪の幇助に当たるという前例が作られれば、開発者には大きな足かせになってしまう。私は無罪です。」
これは彼が逮捕され、京都地裁における初公判(2004年9月1日)での言葉だそうである。

僕は、Winnyを使ったことはないし、不特定多数とファイル共有をして、あからさまな著作権侵害をするような人の気が知れないが、新しい技術の発明者が刑事告発される状況は、ソフトウェア技術者の一人として看過できない。

先に挙げた本の著者はこう書いている。
「P2Pのような新技術は両義性を持っている。それは「毒にも薬にもなる単なるツール」というより、「毒であるからこそ、薬にもなる」という表現が正しい。結局、それは破壊者にして創造者なのである。既存システムの網の目が隙間なく張り巡らされた現在においては、新たなシステムの創造者は、その前に破壊者でなければならないからだ。」


僕は以前から周りの人に「コンテンツはいずれタダになる」と言ってきた。
コンテンツがタダになっても、その制作者が損をしない仕組みを考えてきたつもりだった。
でも僕の考えなど所詮「素人の浅知恵」に過ぎないことをこの本によって知った。
新たな仕組みの創造者になるためには、既存のシステムを破壊しなければならない。
当然、既存のシステムを立ち上げ、維持してきた人たちもいて、その人たちは破壊されまいと努力するだろう。
そういう人たちと戦ってはいけないのだ。
泥仕合になるからである。

現在のコンテンツ産業をよく理解して、その矛盾点を突き、じわじわと変革をもたらしながら、気がついたら新しいシステムに変わっていた、という状況を作り出すべきなのだろう。
そうじゃなくて、変革を急ぎ過ぎると、その過程で既存システムの破壊ばかりが進行して、コンテンツ産業そのものを破綻させてしまうかも知れない。
この本は、その危険性を多くの人に伝えようとしている。

IBMの研究所にいたときに、社内のいわゆるITコンサルタント(IT業界のハイエナ。一部では癒し系とも言われている)に連れられて、日経新聞の本社で、デジタル化に関わっている人たちの前でプレゼンをやらされたことがあった。
そのときに、コンテンツをネットで出すことについて、当然ながら著作権の問題に話が及んだ。
僕はそこでも「コンテンツはタダになる論」を振りかざし、「コピー(海賊版)を防ごうとすることがそもそもナンセンスですよ。これからはいくらコピーされても著作権者が損をしない、さらに言えば、コピーされればされるほど著作権者が得をする仕組みを考えるべきなんです」と主張したのだけど、あまり理解されなかった覚えがある。

よく考えると、現場の人たちは、もう自分たちのコンテンツそのものには従来ほど商品としての価値がないことをよくわかっていて、それでもビジネスモデルを変えられずに苦しんでいるところだったのかも知れない。
そういう人たちに変革を急がせても逆効果だろう。
古いシステムへのしがらみが強すぎて、その破壊に積極的になれないだろうからである。

やはり、もっと新しい業界で成功例を作っていくしかないのかも知れない。
たとえば、オンラインゲーム業界である。

日本ではあまり馴染みがないように見えるオンラインゲームは、韓国や中国などでは爆発的に普及しているらしい。
たとえば、韓国ではゲームユーザーの6割以上がオンラインゲーマーだということである。
これらの地域でオンラインゲームが普及している背景には海賊版の問題があるそうだ。
海賊版がすぐに出回ってしまうために、パッケージゲームソフトの開発費が回収できず、これらの開発はすぐに廃れてしまったらしい。

オンラインゲームのビジネスは、ゲームの舞台となる仮想世界を運営するサービスが主体となり、毎月、ユーザーから使用料を徴収することで収益を上げている。
そのため、違法コピーによって受ける損害は少なく、伝統的に著作権管理に甘い地域で普及したそうである。

オンラインゲームはSNSと同様(というかSNSも一種のオンラインゲームと言えるかも)に複数の人間が参加しコミュニティを形成している。
他の参加者と時に戦い、時に協力し、親密になったりする。
つまり、実世界との接点を持ち、リアルな葛藤やスリルや感動を経験するのである。

これは当然、社会的な現象となり、ゲームに没頭しすぎることで生じるさまざまな弊害も存在する。

オンラインゲームの世界でPKと言えば、それはPenalty Kickのことではない。
Player Killerのことだそうである。
日本のゲームでは、「信長の野望Online」などの合戦ゲームを除いて、ゲーム内での殺人は禁止されているのだそうだ。
しかし、韓国などの諸外国では禁止されていない。
初めてゲームに参加した人のキャラクタがいきなり殺されてしまうこともあるらしい。

オンラインゲームで知り合ったプレイヤー同士が結婚することもあるらしい。
それ自体は別にどうでもいいことなのだけど。
先の本の中で紹介されている逸話にこんなのがあった。
「この前、知人の結婚式に行ったら、司会者が「馴れ初めは何ですか?」。新婦が「ネットゲームで命を助けてもらったから。彼は命の恩人です」と。冗談かと思ったら、どうも本気なんですねえ」

ネット上で知り合ったプレイヤーが女性かどうか、というのはゲームをする上で重要なファクターらしい。
知り合いのオンラインゲーム会社(ゲーム以外のこともいろいろやっているみたいだけど)社長(ringo。君のことだよ)に聞いたところ、ネカマっていうのがいるらしい。
僕は知らなかったのだけど、これはオンラインで女性のふりをする男性だそうだ(どうしてそういうことをするのか、僕にはよく理解できないけれど)。
それで、ネカマチェッカー(あるプレイヤーがネカマかどうかを判定するプログラム)の(潜在的)需要はすごく高いらしい。
これはおそらくオンラインならではの需要だろう(オフラインの生活では必要ないですよね。多分)。

ちなみに、コンピュータを媒介とした会話で相手が男性か女性かを当てるというのは、有名なチューリングテストと呼ばれるもの(のオリジナル版)である。
チューリングテストは、人工知能と人間を区別するテストだと思われているが、もともとはそういうものではなかった。
「ブレードランナー」という映画にも出てくるが、人間そっくりの人工知能と人間を区別するテストは常に会話(に付随する目の動きなどの非言語的動作を含む)によって行われる。

オンラインゲーム、あるいはネット上のコミュニティには、コンテンツの創造と知財共有の新しいメカニズムが考えられるかも知れない。

たとえば、アイテムと呼ばれるゲーム内で使う道具の売買が行われているらしい。
アイテムは、無論、情報的な財であり、これも知財の一種である。
アイテムの価値はそれを必要とするプレイヤーの状況に依存する。
「わらしべ長者」みたいな価値の連鎖が発生するだろう。
わらしべ長者の物語では、物々交換を繰り返すことで、主人公の持ち物の価値が雪だるま式に増えていくのであるが、重要なことは、それらの交換によって誰一人として損をしていないことである。

オンラインゲームでのアイテムの所有は、通常の(物理的な)財の所有と異なり、サービスの存続に強く依存したものである。
ゲームのサービスが終了した瞬間に所有権を放棄させられる。

それは理不尽だと思われるかも知れないが、われわれが普段あたりまえに使っている貨幣(日本銀行券など。要するにお金のこと)だって、国家が崩壊すればその価値を失うのである。
崩壊しなくたって、デノミが発動されれば(もう、それだけで末期的だけど)価値はがらっと変わってしまう(しかも悪い方に変わる)。
でも、そんなことを本気で心配している人はいないだろう。
本気で心配すると貨幣というシステムが成り立たなくなる。
貨幣はその価値の保証を先送りし続けることで維持されているのだから。
ゲームのアイテムだって同じことである(ま、会社が倒産してサービスが停止される確率の方が高いかも知れないけれど)。

オンラインゲームのアイテムのような、新しい時代の知財の共有は、古い時代の知財の共有を必然的に含んでいる。
ものづくりとは、さまざまな形で過去から連綿と受け継がれていくものだからである。

「ブリコラージュ」という言葉(「器用仕事」という訳語があるらしい)を最近知った。
これは、すでにある持ち合わせの雑多な材料と道具を用いて、目下の状況で必要なものを作ること、だそうである。
どんな作品も繰り返し引用、加工、リメイクされることによって、より多くの人の目に触れ、そのたびに新しい意味を持つことになる。
コンテンツの価値は多くの人の手によって循環していくことによって、らせん状に上がっていくものである。
しかし、それを妨げようとするものが必ず現れる。
著作権問題もその一つだが、それにも増してやっかいなのは変化を望まない人々の心である。

知り合いのテレビ局の人(局次長クラス)に聞いたところ、鳴り物入りで始まったデジタル放送に期待するものはほとんどないとのことである。
デジタル放送にしてDRM (Digital Rights Management)に対応しないと、たとえばハリウッド映画などが放送で流せなくなるから、仕方なくやっているそうである。
「え、デジタル放送ならではのビジネスモデルがあるんじゃないですか」と聞くと、「ないよ。そんなの」だそうである。
「だって、テレビ業界は広告で十分ビジネスが成り立っているし、それはデジタル化されたって同じこと」なのだそうである。
「でも、僕はハードディスクレコーダに録画して、CMなんてほとんど見てませんよ」と言うと、「でも、CMを流した商品はちゃんと売れているし、多くの人はやっぱりCMを見て、商品を買っているんだよ」と言われた。
そうなのか。
テレビCMってこれまではともかく、これからも効果があるんだ。

「PCでテレビを見るっていう話があるけど、あんなのはごく少数のことであって、やっぱり、テレビはリビングの見やすいところに置いてあって、みんなそれを見てるんだよ。テレビがリビングに置かれている間は、この業界がまずくなることなんかないよ。」

話がテレビとネットの融合についてのことに及んだときに、「テレビ局って視聴者の情報が欲しくないんですか」って聞いたら、こう言われた。
「視聴者の情報なんていらないよ。テレビは、たくさんの人に同時に情報を送る仕組みだから、コストが安く済んでいるんだ。視聴者の情報なんかいちいち管理していたら、それだけで膨大な費用がかかってしまう。」
「ネット配信の動画ってあるじゃないですか。」
「あれはひどいね。無料の動画配信なんかやっているところがあるから、ネット資源を不必要に食いつぶしている。あんなのどこかのルーターでパケット止めてやればいいんだ。」
「Google Videoってどう思います。」
「最悪。著作権というものをまるっきり無視しているね。」
「訴えないんですか。」
「他(のテレビ局)がやればうちもやる。」
「今は黙認するんですか。」
「いや、静観しているだけ。」
「どうしてですか。」
「Google Videoのおかけで、マイナーな番組に人気が出ることもあるかも知れない。うちが訴えても、単にうちのコンテンツが紹介されなくなるだけ。業界全体が団結して訴えるならやるけど、自分のところだけが損するかも知れないようなことはやらない。」
「相手がGoogleだからですか。」
「そう。今はパワーバランスの上で向こうの方が力がある。もちろん、相手の方が弱ければ、必ず訴えてサービスを止めさせる。」
なるほど。
政治の世界ですね。

なんとなくテレビ業界の体質が変わらない理由がわかってきた。
フジテレビ騒動が起こって間もないときに、TBS騒動が起こったのは、テレビ業界人の危機意識が決定的に欠落しているからだろう。
世間で言うテレビとインターネットの融合なんて、テレビ側からするとコンテンツの2次利用(による小遣い稼ぎ)以上の価値なんて感じていないのだろう。
携帯への1セグメント放送も似たようなものらしい。
確かに、僕は、携帯でオンエア中のテレビ番組を見ようという人の気が知れない。
ネット広告ビジネスは最近ようやくラジオ広告のそれを上回るようになったらしいが、テレビの足元にも及ばない状態らしい。

テレビ局の不祥事がどんなに明らかになっても、多くの人はテレビを見るのをやめない。
どんなに視聴者を馬鹿にした低俗な番組を作っても、一部の人がクレームするくらいで、やはり見ることをやめない。

テレビに出ることが有名になることにつながり、ステイタスにつながるという図式がまったく変わらない。
また、相変わらずCMに踊らされ、商品を買わされる。
そんな状態が永遠に続くような錯覚に陥りそうだ。

実際、テレビ業界の人はそう思っているのだろう。

でも、もちろん、いつの日かきっと変化が起こる。
僕は、そう遠くない将来、テレビが大衆の一部の娯楽の一つに過ぎなくなり、当然ながらテレビCMビジネスは急落し、いい映画はテレビで流れなくなり、他の番組も今よりもっと質の低いものになってしまうことを予測している。
過去の映像資産は、テレビ以外のメディアで有効に活用されるだろう。
もちろん、そのときには、コンテンツにからみつく無数のしがらみが一掃されているだろう。
そうしないと生き残っていけないのだから。
アメリカで著作権の有効期限延長を繰り返し行っている、いわゆる「ミッキーマウス保護法」などの悪法も駆逐され、ディズニーはどこかに売却されているかも知れない。

最後に、冒頭に挙げた本で紹介されている、コンピュータソフトウェア著作権協会の久保田さんという人の言葉を引用しよう。
「大体、僕はディズニーランドには絶対行かない。だってもう、コンテンツの塊みたいな奴にズブズブに浸かって、金払って、全部アメリカに持っていかれて……そんなところに行けませんよ。ああいうものに「年に何回行ってますぅ」とか自慢して、アメリカのコンテンツに一杯金払ってねぇ、片や自分たちのコンテンツをコピーで済ませちゃおうというのは、どういう考えなんだろう。なんか、もうちょっと文化防衛論とか、アイデンティティとか、もう少し考えてくれよ、と僕は言いたい。どっちが損か得か。そういう視点がなさ過ぎる。結構、自分たちの文化をバカにしているところがあるから、日本人は。たとえば、外交官でも、能や狂言を見て外交官になっている人はほとんどいない。そんなことじゃあ、文化大国とか情報立国とか言っても、ちょっと違うんじゃないの、という気がする。日本の知的財産というものを、どう演出して国益につなげるか。そこに直結する判断がまず必要だと思う。
(中略)
これから日本の知財の経済的マックスをどこに持ってくるのか、文化立国としてのベクトルをどこに持ってくるのか、本当に議論しなくちゃいけないところです。」

ズブズブの僕にはこんなかっこいいことを言う資格はないのである(でも、ディズニーシーの炎と水のショー「ブラビシーモ」はすごくいいよ)。

投稿者 nagao : 23:59 | コメント (251) | トラックバック

2005年09月09日

ビデオブログでできること

「ブログ 世界を変える個人メディア」(朝日新聞社 2005)という翻訳本を読んだ。
邦題は陳腐だが、原題はWe the Media: Grassroots Journalism by the People, for the People (直訳すると「われらメディア 人民による人民のための草の根ジャーナリズム」)である。
ちなみに、このタイトルは、アメリカの憲法前文の書き出しWe the People(われら人民)とかけているらしい。
著者は、ハイテク好きのジャーナリストであり、かなり早いうちからブログを書いていた人らしい。

僕が作ったものではないが、今のオンラインコンテンツ技術が、現在の社会の元凶の一つであるマスメディアに対抗する力をもたらし、膠着しかけた社会に大きな変革をもたらしていくさまを見るのはとても痛快である。
と同時に、自分が死ぬまでに社会が本質的に必要とする技術を開発・実用化して歴史に足跡を残すことができるのか、と考えるととても不安になる。
しかしこればっかりは自分を信じて前に進むしかない。

テクノロジーとして深い内容を持っているものが、社会に深い影響を与えるということではない。
深い内容を持っていたって、世の中にたいして浸透しないものが強い影響力を持つことはない。
その反面、技術的にレベルの高いことをやっているとはとても思えないものが、時代の要請に適合することによって、大きな社会的ムーブメントを引き起こしたりする。
僕は、ブログをそういうものと捉えている。

ブログ(ツール)には特別に新しい技術は含まれていない。
HTML(のテンプレート)、スタイルシート(CSS)、CGI/Perl、データベース(RDB)、RSS/Atom、そしてWeb。
ログ(日誌)という形式にしたのはよい考えだと思うけれど、それはいろいろ試行錯誤しているうちに、たまたまそのような形式のものが広く浸透したのだと思う(Wikiよりブログの方が大きな社会的インパクトを与えているような雰囲気があるが、それはたまたまである)。

ブログに実装されたもので、新しい仕組みだと思えるものはトラックバック(TB)くらいである。
正直、HTMLのハイパーリンクは単純でわかりやすいけど、リンク先のサイトやコンテンツが変更されてもHTMLの著者が対応しないと役に立たない、など、いろいろと不備が多いので、コンテンツとリンクを別に管理する仕組みにするべきだと前々から思っていた。
それによって、コンテンツの公開後にリンクを(場合によっては第3者が)編集することができ、TBのような逆リンクも簡単に実現できると思っていた。
だから、TBの発想は面白いと思った。
でも、その実装を見たときはがっかりした。
もうちょっと頭のよい実装法は思いつかなかったのか、と。
でも、TBはともかくRSSを一般に普及させた功績は大きいと思う。
たとえ、今のRSSが、技術者をあきれさせるほど単純なものだとしても。

しかし、ブログの本質は、そんな技術的なことではなかった。
先に挙げた本の著者は、ブログの効果を「ニュースのオープンソース化」だと書いている。
有名なGNUプロジェクトの創設者であるリチャード・ストールマンが始めたソフトウェアに関する活動が「草の根」ジャーナリズムに影響を与え、よくできたツールと明確な動機付けに支えられてとてつもなく大きなムーブメントをもたらした、ということらしい。

それにしても、この本は冗長な部分が多いと思う。
おそらく3分の2程度のページ(この本は本文が395ページもある)
でも原著者の伝えたいことは十分に伝えられるだろう。
それに蛇足としか言いようのない解説も付いていて、「そんなことは本文を読めばわかるよ、馬鹿じゃないんだから」と言いたくなる。

さて、この本の中に次のような記述がある。
「オーディオ、ビデオ、アニメーションなどのマルチメディアをブログに使うケースが目立ってきた。(中略)ただ、自分のブログでもオーディオとビデオを使ってみたが、あまりうまくいったとは言えない。」
オンラインビデオが十分に普及した現在であっても、依然としてブログにビデオを載せて多くの人に見せるのは大変である。

また、本の中では、コストの点についてこう書かれている。
「最も成功しているウェブサイトが、最も維持コストがかかってしまう」
これは、プロバイダが「ウェブサイトが受けるアクセスの量と、テキスト、画像、オーディオ、ビデオを読者に届けるために必要な大域幅に基づいて課金」しているからだそうで、「公開したビデオがそこそこの人気を集めただけで、サイトの開設者は、莫大な支払いを背負うはめになりかねない」のだそうである。
「これまでであれば、メディアが成功すれば、限界コストは逓減していったはず」だから、ウェブの現象はメディアの歴史上、特異なものだということである。

この本の言うように、ブログの本質は草の根メディアであると考えると、人気が出たせいで維持コストが余計にかかるというのは、あまりうれしくないことであろう。
さらに、スクープ性のあるビデオなんか載せてアクセスが急増したら大変なことになってしまう。

しかし、これからはビデオを中心としたブログのことも考えるべきだと思う。
すごく好きな映画の話を書きたいときに、言葉ですべてを伝えるよりもシーンの映像や音声そのものを示して、ここはこういう意味なんだ、みたいなちょっとしたうんちくを語りたいことがあるだろう。
もうすでに、テレビ番組のキャプチャ画像を無断でブログに載せている人もいるけれど、著作権者の承認のもとに、オリジナルのビデオを直接参照できた方が、明らかにお互いの都合がよいだろう。

あるいは自分の撮影したビデオをネットに置いて、ビデオを見る前に読んで欲しいことや、ビデオの任意のシーンに補足情報を加えたいことなどがあるだろう。
そういう、ビデオを参照しながらブログで語りたいことっていろいろあるのではないかと思う。
そんなときに威力を発揮する仕組みはないだろうか。

その一つが、僕のいる研究室の学生が研究しているビデオブログである。
ビデオブログという言葉はすでに普通に使われているけれど、僕らが研究を始めた頃にはそんな言葉はなくて、特に思い入れもなくビデオブログと呼んでいた。
ここでのビデオブログという仕組みは、ブログページにビデオを埋め込んでブログ内で視聴するものではなく、ビデオ(の全体あるいはその構成要素)について語るために、既存のブログツールを拡張したものである。

ビデオについて語るために都合のよい仕組みは、ビデオの任意のシーンにポインタを付けて、文中で参照できるものである。
そのために、オンラインビデオアノテーションと呼ばれる仕組みを利用する。
これは、ブラウザでビデオを視聴しながら、気になったシーンにマーキングするものである。
マーキングはタイプ(シーン内の人やものなどのオブジェクトか、そのシーンの出来事や会話などのイベントか、など)を選んで、ショートコメントを書き込むものや、ボタンクリックによって印象(おいしそう、楽しそう、悲しそう、など)を入力するものなどがある。

マーキング結果は、ビデオアノテーションサーバー内に蓄積される。
そのサーバーはRSSフィード機能を使って、マーキングした人のブログサーバー(アノテーションサーバーにはSNSと同様、ログインが必要で、ブログサーバーを登録できる)にその人がどんなビデオのどんなシーンが気になったかを知らせる。
すると、気になったビデオシーンのサムネイル画像と、ビデオサイトにあるそのビデオのそのシーンへのリンクが付いたビデオブログ用のエントリーの雛形が自動的に生成される。
これによって、好きなビデオの好きなシーンについて思う存分に語ることができるだろう。

ブログのエントリーそのものにビデオが埋め込まれているのではなく、シーンを表すサムネイル画像とそのシーンへのリンクが含まれているだけなので、通常のブログページと見た目はまったく同じで気軽にさくさく読むことができる。
ビデオを見るには少し待たなければならないかも知れないが、ピンポイントに、言及されているシーンに飛ぶことができるから、ブログに書かれていることを容易に確かめて、内容を理解することができる。

この文章だとちょっとイメージしにくいかも知れないけれど、実際に使ってみるとすぐにわかると思う。

この仕組みを一般に普及させるためには、いくつかの乗り越えなければならない問題がある。

最初に思いつくのは無論、著作権の問題、あるいはコンテンツホルダーがその気になるか、という問題である。
ビデオコンテンツの著作権者が、ビデオアノテーションサーバーにコンテンツを登録してくれないと、そもそもこの仕組みは運用できない。
その際に、ブログでのサムネイル引用を認めてもらわなければならない。
現在のブログがジャーナリズムのオープンソース化を目指すものならば、ビデオブログがエンターテインメントのオープンソース化に少しでも近づけるとよいと思う。

エンターテインメントのオープンソース化は、たとえば、エンターテインメントコンテンツの公開企画会議なんかを可能にするだろう。
その結果、駄作としか言いようのない映画を高いお金をかけて見せられる危険性が軽減されるだろう。

昨年公開された「デビルマン」という映画をご存知だろうか。
僕は中学生のときにこの映画の原作である漫画を筆舌しがたい衝撃を持って読んだ記憶がある。
だから映画化されたと知って、是非見てみたいと思ったのだが、劇場公開後のネット上の評判は惨憺たるありさまだった。
どのくらいひどいか僕にはうまく表現できないので、とりあえずぐぐってみてください。
あえて要約すると、偉大なる原作(原作者さえ二度と同クオリティのものを生み出せないだろう、と言われている)に汚物をなすりつけた、映画と呼ぶのもはばかられるゴミ作品なのだそうである。

この映画を企画の段階でオープンにしてコアなファンの意見に耳を傾けていればもう少し違った作品になったのではないだろうか。
たとえば、パイロットフィルムか何かをビデオアノテーションサーバーに載せ、引用を許可したとしたら、多くの人の批判と要望が自然に集められ、企画の見直しやブラッシュアップに大いに役に立っただろう。
きっと「この役はこの俳優がふさわしい」なんて投票までやってくれただろう。
また完成前に、トレイラーと呼ばれる予告編を同様に公開して引用可能にすれば、集まったコメントに基づいて、編集にひと工夫を加えて、ファンサービスシーンを追加することも考えられたかも知れない。

可能な限り多くの情報をタイミングよく公開すれば、きちんと評価して期待してくれる人も増えるだろうし、その結果、誇大広告気味な宣伝なんかやらなくても、ちゃんと世の中にアピールして、多くの人に見てもらえるものになると思う。
冒頭に挙げた本にも指摘されているように、「透明性の高さは、まず間違いなくよい結果を生む」のである。

もちろん、自信のあるクリエイターは、不特定多数の意見を聞いて方針を決めるなどということはしないだろう。
また、ネタばれによって面白さが減少するのを恐れて、秘密主義に徹することもあるかも知れない。
たとえば、スティーブン・スピルバーグは、自らの監督したAIや宇宙戦争に関して、公開ギリギリまでほとんど情報公開をせず、試写を見たマスメディアにも公開前の論評を禁止した。
その結果、多くの人にとってよい評価が得られたかというと、必ずしもそうは思えない。
むしろ、僕はAIは間違いなく駄作だと思っているし、宇宙戦争も特に見たいとは思わない。

映画が完成する前に、少なくとも公開される前に、(憶測ではなく、正しい情報に基づいて)意見をする機会は必要だと思う。
それを排除してしまうことによって、独りよがりで難解な、いわゆる駄作を生み出してしまうリスクが増大するだろう。

結局、適切な引用のようなフェアユースに限定すれば、貴重なコンテンツをビデオブログに載せても損をするどころか、制作者側が得るものは、けっして少なくないのではないかと思う。

次に、大勢のユーザーがつくかどうかという問題がある。
ビデオアノテーションサーバーはコンテンツホルダー側に制御権を与えることになると思うが、シーンのサムネイル引用の部分は、すでに普及しているブログツールのプラグインとしてフリーで公開することになると思うので、たいして敷居も高くなく、多くのブログライターが気軽に使えるものになると思う。
これを読んでいるみなさんも、僕らが近い将来、ソフトウェアを無償公開したら是非ダウンロードして試していただきたい。

現在のブログがジャーナリズムに対してそうであるように、ビデオブログは、今後のエンターテインメントにとてつもなく大きな影響を与えるだろう。

投稿者 nagao : 00:25 | コメント (2) | トラックバック

2005年08月25日

HyperPhotograph再考

HyperPhotograph(ビデオの例) HyperPhotograph(人の例) 当時の私

昔やっていた仕事で、最近になって、あのとき途中であきらめないで続けてやっていればよかったと思うものがいくつかある。
HyperPhotographもその一つである。
途中でやめてしまった理由はさまざまだが、当時の周囲の人たちの評判が芳しくなかったというのも理由の一つになっている。
僕はその頃(1993年から97年まで)だいたい3ヶ月単位で一つの研究(アイディア出しからデモまで。研究はそれだけでも一応、論文として成果になる)をやっていた。
最初のデモがそれなりに受け、自分の興味も持続している場合は、同様のテーマでもう少し深いことを次の3ヶ月でやるのであるが、最初のデモの評判がよくないと続きをやる気がなかなか起こらなかったのである。

HyperPhotographとは僕が1997年初め頃に作っていたシステムで、デジカメで撮った写真から、自動的にハイパーリンク付きのイメージマップを生成して、写真からそれに写っている人やモノのWebページにジャンプしたり、Webページのテキストに基づいて、写真を検索できるようにした仕組みである。

以下に、その当時に僕が報告書に書いた文章を抜粋して載せる(報告書向けの文章なので、少々文体が硬いがご容赦を)。

個人が自分の経験に即した情報すなわち記憶を適切に管理・検索することができれば、それを将来の行動に有意義に反映できるであろう。
しかし、記憶の正確な想起は一般に非常に困難である。
そこで、人間の記憶の補助となるものとして、個人の行動に関連する実世界情報の蓄積とインデキシング、さらに関連情報への自動リンク付けなどを行うシステムを設計・実装した。

実世界における個人の活動の記録のやり方はさまざまなものが考えられる。
たとえば、Rank Xeroxのミック・ラミングらの開発したForget-me-notのようにUbiquitous Computingの技術を用いて、行動に伴う情報の移動を簡単な記号で代表させ、その痕跡を時間と共に記録するというやり方がある。
これは、かなりシステマティックに実現することができるが、その分インフラストラクチャーの整備に大変な労力を要する。
あるいは、ビデオによって行動記録を残すという手段も考えられるが、たとえタイムコードを使って時間的な検索ができるとしても、内容的な検索を行うためのインデキシングが困難であり、また冗長性もかなり大きい。
一方、写真つまり静止画は、ある意味で実世界の一部をそのままの形で記録していることになり、さらに、写真を撮るということは、実世界における視覚的情報の内、何を覚えておくべきかということを選別する、という記憶の整理ならびに情報フィルタリングの行為に相当すると言える。

そこで、写真を実世界の行動記録とし、写真の内容を解析してインデックスを作成し、さらに関連情報へのリンクを付随させて、写真の検索による記憶想起の補助と、写真内容、すなわち(視覚的)記憶と情報世界との連結を実現することを試みた。
その実現にはデジタルカメラと視覚的タグ(visual tag)、さらにイメージセグメンテーションの技術を用いた。

デジタルカメラで撮った写真を視覚的タグに基づいて解析し、その内容に関連した情報資源へのリンクを自動的に張り、さらにインデックス情報を生成し、日付や時間、それにキーワードで検索できるような仕組みを開発した。
このシステムをHyperPhotographと呼ぶ。

視覚的な情報によって個人の記憶の補助とするための最も単純なやり方は写真を撮ることである。
しかし、ただ写真を撮るだけでは、時間や日付のようなインデックスを使う以外には検索する手段がない。

そこで、内容に関する検索が行えるようにするためには、写真の解析をする必要がある。
従来のイメージコンテンツ検索の枠組みでは、色の濃淡やテクスチャーの特性、それにエッジ検出などで得られた対象の外周の形状などに基づいて検索を行う。
これらは、一般的に内容検索を行うにはまったく不十分な情報である。
できれば、写真に写っている対象を認識して、その名前や関連キーワードで検索したいが、これまでのイメージ処理の枠組みでは、今のところほとんど不可能である。

今回用いた手法は、モノや人に視覚的タグを付けることである(モノの場合は表面あるいはその置いている場所の周辺に貼るラベルとして。人の場合は服に付ける名札として)。
このような手法はすでにいくつかの研究機関で試されている。
バーコードのようなコードを付加されたラベルである視覚的タグは、対象のIDとそのイメージ上の位置や領域を機械的に認識するのに有用である。
ただし、これを用いて実世界の対象と情報とを連結させ、それを記憶の補助とするためには、このタグが十分広く使われていて、多くの人々にとってメリットのあるものでなければならない。
この点は重要であるが、タグが存在することを前提として、その応用について考察し、将来の方向性を模索することにした。

写真上のタグの解析は、まずイメージを2値化して連続した閉じた白い領域を検出してタグの候補とする。
この場合、タグの大きさや向きは任意なので、タグの形(長方形)をヒントとすることしかできない。
しかもそれさえも常に成り立つとは限らない。
そこで、いくつかのヒューリスティックスを使って領域の4つの端点を検出する。
その後、ある辺にコードを読み取る出発点となる印が付いていることを確認すると、その領域はタグであると判断する。
コードは、タグを等分した位置にバーのある場合(1)とない場合(0)でビットパターンを表した単純なものである。
タグの最大ビット数は最初に設定するものとする。
今回の実験で用いたのは、6ビットと10ビットのタグである。

また、タグの誤認識(ビットの読み取りエラーではなく、タグでない領域をタグであると判断すること)は頻繁に起こるので、頑健性を高めるために一つの対象に複数(最低2つ)のタグが付いていることを前提とする。
この複数のタグは対象の領域を認識するためにも役に立つ。
たとえば、本の背表紙の上と下の辺に接するように2つのタグを貼れば、その本(の背表紙)全体の領域がわかることになる。

対象と情報資源を関係付けるために、IDとWebのURLの対応表をあらかじめ用意する。
これは登録サーバーを用意して、検索エンジンなどの結果からURLを登録できるようにする。
誤認識したIDがその表になければ、それを誤りとして取り除くことができる。
システムは、見つかったIDに対応するURLからWebページを参照し、その内容に基づいてインデキシングを行う。
現在は、TITLEタグか、または新たに加えたDESCRIPTIONタグで囲まれた部分をそのままインデックスに登録しているが、将来はWebページ全体を使ったインデキシングを行う予定である。
また、写真撮影の日時や場所も当然インデックスの一部となる。

HyperPhotographは、モノにタグを付けて、自動的に写真とWebページとのリンクを張り、あとで、写真を見ながら、「これは何だっけ?」と思って写っているモノをクリックする(クリック可能な領域にマウスポインタが入るとボタンが浮かび上がる)と、そのページに跳んで、詳細な情報がわかる、というものである。
タグは、その製品を製造あるいは販売している会社によって付けられるだろう。
これは製品とその情報をつなぐ手段として非常に有効だと思う。

さらに、写真撮影時に記録した日付・時間・場所、さらにリンクから得られた内容に基づいてHyperPhotographのインデックスを作り、検索するときに、「いついつのどこどこの何何の写っている写真」という具合に指定すると簡単に探すことができる(これはいくつかの指定を省略しても機能する)。
もちろん、時間や場所はあやふやな場合が多いので、その周辺のものをざっと見て探せる工夫も必要だろう。
このような仕組みによって、記憶の補助としての写真と情報世界とのリンクによる、過去(の自分の経験)と現在(のWeb上の情報)の橋渡し、というのが可能になって、日常生活がより面白くなるのではないか、と思っている。

以上は僕が1996年から97年に考えていたことで、そのときは結構やる気満々であった。
しかし、その後いろいろあって、この研究は最初のプロトタイプ(しかし、ちゃんと動く)を作ってデモしたところで中断し、その後、続きをやることもなかった。

その当時、僕はデジカメのヘビーユーザーで、発売されたばかりの初代のSony CyberShotをいつも持ち歩き、目に付いたものでこれはと思ったものはすぐに写真に撮っていた(美術館内で絵を撮っていたら怒られたこともある)。
そのとき1年ほどアメリカに住んでいたが、周囲の人は僕がデジカメを使っているのを不思議そうに見ていた。
もちろんアメリカにデジカメが全然なかったわけではないが、常に持ち歩いている人なんて僕の周囲には他に一人もいなかった。

僕がその当時見逃していた重要な点は写真を共有するという観点である。
それは、デジカメで気ままに写真を撮って後で記憶の想起に用いるという行為は、あくまでパーソナルなものだと思っていたからだ。
もちろん、友人が写っている写真をWebに置いて共有可能にしたり、その友人にプリントして渡したりすることは普通にやっていたが、一般の人が自分のために撮影した写真をきっかけにコミュニティ的な活動が自然発生する、なんてことはまったく想像していなかった。

だからFlickrなんかを見ると、なるほど、そういう手があったか、と感心させられることしきりである。
もしFlickrが、単にデジタル写真の置き場をWeb上に提供し、サムネイル等で一覧を作成して特定のユーザーが閲覧・ダウンロードするだけのシステムだったとしたら、僕はあまり興味を示さなかった。

Flickrは(これを読んでいる人は当然知っていると思うが)、いわゆるWebアルバムサービスである。
手軽に写真をアップロードでき、写真そのものや写真内の任意のオブジェクト(矩形領域を手動で指定する)にキーワードなどをアノテートでき、複数の写真を、アップロードした日付やキーワード等で簡単に整理でき、SNSのように、アップした写真を見て欲しい人にメールで紹介したり、ブログのエントリーにFlickrへのリンク付きの縮小版の写真を貼り付けたりできる。
写真を中心にして世界が広がっていくという感じがする。

Flickrは、コンテンツに対して、閲覧者がアノテーションを付与することで、コンテンツに意味や価値を与えていく仕組みでもある(実は、これは以前からあるアイディアであり、僕もそれに関していくつかの仕事をしてきた)。
僕は、RSSやAtomのような、プログラムが自動生成するメタデータより、人間が何らかの解釈によって作成するコメントや属性のようなアノテーションの方が重要だと思っている。
ただ、機械が自動生成するメタデータと人間が入力・編集するメタデータは統合されるべきで、そのための仕組みがこれからいろいろ出てくるだろう。

ところで、HyperPhotographのようなアイディアが未だ実用的にならない理由は、以下のようなことではないかと思う。

1. 視覚的タグが思ったほど一般的になっていない。
QRコードのような2次元バーコードはそれなりに普及しているが、依然として、任意の距離から撮影した画像内に含まれる複数のコードを一気にデコードできるような仕組みになっていない。
2. そもそも、視覚的タグはデザインが悪く、製品のラベルや服の模様などに取り入れるのが困難である。
これに関しては、赤外線を当てると可視光に変換して反射する透明な塗料を使った不可視タグ(invisible tag)というのも考えたが、結局アイディアだけで終わった。
3. せっかく解像度の高いデジカメが出てきたのに、ケータイに内蔵の解像度の低いカメラで満足している人が意外に多い気がする。
要するに、撮るという行為が重要なわけね。
4. 写真にタグやコメントを付けるという行為は、ブログを書くのと同様に、やる気のある人なら自分でやるため、機械の力を特に必要としない。
それは、Folksonomyにつながり、群衆パワーによるボトムアップなオントロジー構築という話に関連してくるのだけど、それについては、いつか書こうと思う(正直、コメントはともかく、タグはあまり意味がない気がする)。

まあいろいろあって、その後、僕の興味は写真からビデオに移ってしまった。
今なら、以前はあきらめていた、ビデオの自在な検索と共有による人間(とコミュニティ)の記憶の拡張が実現可能な気がするからである。

投稿者 nagao : 00:17 | コメント (484) | トラックバック