« ディープな検索 | メイン | 未来の話ができますか(後編) »

2007年05月07日

未来の話ができますか(前編)

連休中にやろうと思っていたことの半分もできなくて残念です。
ワードローグのコーディングも途中で投げ出したままだし、本の原稿も完成してないし。。。やれやれです。


つくづく未来の予測はむずかしいと思う。

PDF(Portable Document Format)やドローツールのIllustratorで有名なAdobe(アドビシステムズ社)が、SVG(Scalable Vector Graphics)のサポートを停止する(正確には、SVG表示ソフトのSVG Viewerに関して、2007年末にサポートを、2008年末に配布を終了する)、という発表をしたのを聞いて、「しまった、読みを間違えた」と思ったのである。
SVGは、PDFとほぼ同じ表現能力を持つ、Webブラウザ向けのベクターグラフィック言語のことである。

実は、SVGが発表され、Adobeがそのビューア(Webブラウザのプラグイン)を公開したときに、これは結構使えると思ったのである。
僕のいる研究室では、かつてMathMLという形式で記述された数式をSVGに変換して表示するコンバータを作ろうとしていた(結局、MathMLの仕様が複雑すぎるので断念した)。
また、MusicXMLという形式で記述された楽譜をSVGに変換して表示し、楽譜の任意の要素(音符や休符、歌詞の一部など)に対してアノテーション(情報付与)できるシステムを作っていた。

また、僕が仕様を決め、僕のいる研究室で制作したデジタル認知科学辞典というコンテンツは、図や数式とテキストをシームレスに表示するためにSVGを利用している。
このSVGは、辞典項目のXMLデータ(辞典の構造をXMLタグで記述したもの)から自動変換したものである(SVGもXMLデータである)。
つまり、辞典の各項目をXMLで構造化して、タイプの異なる情報をシームレスに表示するためにSVGを利用したのである。
デジタル認知科学辞典のCD-ROM版は、書籍のおまけではなく、独立した商品(電子書籍)として企画されたものなので、この決断はとても重要だった。
CD-ROM版はサーバーアクセスを前提としていないので、変換後のSVGファイル(および検索用ファイル)のみ収録している。
トラブルの元になるので、データベースや変換ソフトは入れていない(検索にはシェアウェアのPDIC(Personal Dictionary)を利用している)。
販売元(および書籍版の認知科学辞典の出版元)の共立出版は、僕の考えを全面的に認めてくれた。
ちなみに、これのサポートページも僕が管理している。

そのコンテンツがもう見れなくなってしまうかも知れないのである。
実際、僕が今使っているWindows VistaのIE 7.0では、すでに見れなくなっている。
こうなる危険性は最初から考慮すべきだったのに、僕はPDFの思想を継承してさらに柔軟にしたSVGがそう簡単に廃れるはずはないと考えてしまったのである。
こうなると、CD-ROMの改訂版をSVG抜きで作り直さざるを得なくなってしまった。
SVGに含まれている情報から項目間のリンク情報を分離し、JPEG画像とHTMLタグに変換してしまえばよいのであるが、ベクター情報がなくなってしまい、拡大縮小が柔軟にできなくなるのが実にもったいない(ちなみに、CD-ROMには、2種類の文字サイズのSVGデータが収録されている)。


実は僕は、およそテキストで表現できる情報なら何でもかんでも、とにかくXMLにしてデータベース化するべきだ、という考えを持っている。
そのため、研究室の学生にXMLデータベースの利用を義務付けたことがあった。
僕らの作るシステムは、ネットでの共有を前提としたものなのだから、データを保存するときに、ローカルファイルに保存するようなやり方はやってはいけない(イメージやビデオなどの場合は仕方がないが)、必ずデータベースに登録するようにしなさい、と言ってきた。
実際、僕たちが研究室Webサイトで公開している論文はすべてXML形式で記述され(アブストラクトのみのものもある)、データベースに保存されている(ブラウザで見るときは、XSLTをサーバー側で適用してHTML化して配信している。論文のURLの最後に?xsl=falseを付けると変換前のXMLのソースが出力される)。

データベースを使うこと自体は今でも間違っていないと思っているが、XMLデータベースを使うという試みはことごとく失敗した。
遅い、重い(メモリーを食う)、よく落ちる、の3拍子がそろっていたからだ。
これは単に実装の問題ではないのではないかと思う。
XMLデータベースに未来があると思っていたのは、誤りだったと今は思う。

それで、XMLデータベースを使うのをやめて、PostgreSQLやMySQLなどのリレーショナルデータベースのみを使うようにした。
現在は、それでシステムが安定して動いている。
ただし、XMLを使うという方針は変えていない。

僕がまだSony CSLにいた1998年に、(その翌年に8年ぶりに戻ることになった)IBM東京基礎研究所に所属する研究者が作ったXML Parser for Java(これは後にApacheに寄贈されXercesの原型となった)というのを使って、Webドキュメントに言語的アノテーションのタグを付ける仕組みを作ったりしていた。
それ以降、ずっとXMLを基盤にしたシステムを作ってきた。

XMLは、技術的にはたいしたものではないと思うが(よくネットで話題になる情報技術のほとんどが実はたいしたものではないということが多いが)、およそ価値のある情報というものは人間が見てもわかるような(つまりテキストエディタで編集可能な)構造化がなされているべきだ、という基本的な思想が重要なのだと思う。
その構造がデータを賢く使う上で役に立つものであることももちろん重要である。
意図的に一部の情報を暗号化して読めなくする場合を除いて、データの構造がデータそれ自身を見ればだいたいわかるようになっていることは情報処理の透明性を上げるという点できわめて本質的である。

だから、僕はXMLを将来的にも意味のあるものと考え、システム設計の基本に据えたのである。
僕らの作っているシステムは(少なくともそれによって作成・生成・蓄積・利用されるデータは)あと10年くらい楽にもつだろうと考えている(ただし、前述のSVGを除く)。
ちなみに、XMLタグセットのセマンティクスを記述するXMLスキーマは必要ないと思っている(これには異論のある人もたくさんいそうだけど)。
あるタグセットが何のために設計されたかはスキーマを見ても理解できないし、アプリケーションによってタグの解釈(利用法)が異なっていても構わないだろう。
誰かが以前に「XMLデータはそれ自身がアフォーダンスを持っている」つまり、XMLタグはそのデータをどう使ってもらいたいかを自ら示している、というニュアンスのことを言っていたが、その通りだろう。
XMLスキーマなんか使わなくても、事例としてのXMLデータをよく見れば、何をどう使うべきかはわかってくるし、それに基づいてアプリケーションを自由に設計すればよいのである(XMLスキーマはその作業を楽にしてくれる、という主張もあると思うが)。
タグごとにデータ型(整数か文字列か、など)が定義されていた方がありがたいことは確かにあるが、XMLの使われ方全般の中では瑣末な問題だと思っている。
それよりも重要なのは、データ型などよりはるかに複雑な、コンテンツそのもののセマンティクスを記述することである。
これには、もう少しややこしい仕組みが必要なのだが、その話はここでは省略する。


たとえいくつかの予測が当たらなかったからといって、予測するのをあきらめてしまうのでは研究者失格である。
可能な限り妥当な未来の予測をして、その未来のための準備をしておくのが研究という仕事の真髄だと思う。
ダイナブック構想やMacintochのモデルになったAltoというマシンで有名なアラン・ケイは「未来を予測する最良の方法はそれを発明することだ」と言ったらしいが、問題は「発明や発案だけでは未来にはつながらない」ということだ。
やはり個人の強い意志や信念をもって発明に臨んだとしても、それだけではどうにもならない。
社会がそれを受け容れ、あたりまえのものとして定着し、なくてはならないものとしなければ、発明が未来に影響を与えたとは言えない。


さて、情報技術の未来に関して、これから起こるであろうことを、懲りずにちょっと書いてみようと思う。

僕がこれから大きく変わるだろうと思っていることは、デジタル情報の再利用という概念である。
Web上のコンテンツが永続化されれば、それはコピー&ペーストではない仕組みで再利用されるだろう。
また、動画コンテンツもコピー(ダウンロード)して再配布するようなやり方ではなくなり、もっとリーガルで柔軟なやり方になるだろう。

永続化するというのがなかなか困難なように思われるかも知れないが、たとえば、こんな話である。

ひとたび、ネットで情報を不特定多数に向けて開示した場合、明らかなミスによるもの(たとえば、情報漏洩)でもない限り、下手に削除などをするとかえってまずいことになることがある。
それよりも、一度出してしまった情報は潔くそのままにして、その後に訂正したくなった部分に関して、変更部分とその変更理由を付加情報として別に用意し、閲覧時に統合されるようにしておくのがよいだろう。
もちろん、誤字脱字などの単純なケアレスミスに関しては、理由を書く必要もなく、(直接の編集ではなく)閲覧時に動的に置き換わるようにして、やはり付加情報として管理するのがよいだろう。
こうすれば、Web魚拓なんかを取られて、つまらない詮索で痛くもない腹をさぐられるようなことはなくなるだろう。
ネットに情報を出す場合は、ある程度の覚悟と責任をもって行うべきなのである。
たとえ、憶測による間違った情報を不用意に出してしまったとしても、誰かが見ているかも知れないから、断りなく引っ込めて、なかったことにするわけにはいかない。
元の情報に加えて、訂正およびその理由を出していくことによって、きちんとおとしまえをつけなければならないのである。

CGM(Consumer Generated Media)的なものはそれでもよいが、コマーシャル(商用)コンテンツはそうはいかない、という人がいるかも知れない。
動画コンテンツや音楽コンテンツを永続化することの困難さは理解できなくもないけれど、ネット資源を今より効率的に使う技術はきっと生まれるだろうし、著作権の考え方も変化するだろうから、Amazonのようなロングテール戦略を試みてみるべきだと思う。
つまり、ヒット商品も時間がたてばニッチ商品になるのだから、いっそすべてニッチ商品としてビジネスを考えればよいのである。
Amazonと違うのは、ネット上のコンテンツはそのままでは商品になりにくいことだと思うが、自由に閲覧可能のものが商品の一部になっているとか、クオリティ(解像度や音質など)を落としているとか、パッケージメディアのバージョンには特典が付いてくるとか、いろいろやりようがあるだろう。
また、いっそオンラインのコンテンツはすべて商品を宣伝するための広告と考えてもよいと思う。
それなら(コピペではない)引用を通じて、口コミでコンテンツの評判が広がっていくことは歓迎すべきことだろう(よい評判は直接商品の売り上げに貢献し、悪い評判は次のコンテンツを作るときの注意事項になる)。
だから、これからコンテンツを作るときは、ネットで永続化するつもりで、出演者などと契約を結んでおくのがよいと思う。

永続化は再利用の概念と仕組みを変え、人々に責任と覚悟を求め、著作権のあり方も変え、コンテンツ関連ビジネスをロングテール化させるだろう。
そして、僕たちが考えているのは、さらにその先の未来のことなのである。

投稿者 nagao : 2007年05月07日 01:52

トラックバック

このエントリーのトラックバックURL:
http://blog.nagao.nuie.nagoya-u.ac.jp/mt/mt-tb.cgi/127