« 2007年09月 | メイン | 2007年11月 »

2007年10月21日

トランスフォームとトランスコード

ネット上のコンテンツをユーザーの好みや視聴環境に適合するように変換することを僕はトランスコーディングと呼んでいる。
しかし、変換に関する、より一般的な用語に「トランスフォーメーション」というのがある。
あるXMLデータをHTMLコンテンツや別のXMLデータに変換する仕組み(スタイルシート言語)にXSLTというのがあるが、この最後のTはTransformationの頭文字である。
僕は、コンテンツ(というか情報一般)を機械的に変換することはその意味内容ではなくコード(符号やその並び方)を変換すること(見た目が変化するのはその副次的効果)なので、トランスコードという言い方がよいと思っている。
一方、フォーム(形や見え方)を変換することは、情報的なものよりもむしろ物理的なものに対する操作と考えるのが適切だと思っている。

つまり、トランスフォームとは物理的な変換あるいは変形である。
これからの機械は、情報処理マシンとしての機能と物理的な道具としての機能(つまり人間の身体性とよくマッチすること)の両方を考慮したものになるだろう(携帯電話などはすでにそういう機械であるが)。

ユーザーの目的や状況に応じて、形状がトランスフォームされ、情報がトランスコードされるのがよいだろう。
トランスフォームはトランスコードに影響を及ぼし、またその逆も発生する。
たとえば、傘は雨が降っているときに開くものであるから、状況に依存して変形するものと言える。
また、雨の日は自分の方向に向かってくる人や車があるのかどうか、また、目の前の信号が今どんな状態か、などがわかりにくいので、傘の内側にそれらの情報を表示するとよいだろう。
これは、人によってわかりやすい表現法があるはずだから、情報をユーザーに合わせて変換する必要もある。
さらに、傘を閉じて持ち歩いているときは、行き先の天気を気にしているはずだから、その場所の天気予報を傘の手元の部分に表示してくれるとありがたいだろう。
その場合、文字や複雑な記号を表示する必要はない。
いくつかの色のパターンだけで行き先の天気や天候を表現することは可能だろう。
傘の手元が情報端末のような働きをするならば、人間が自然にそれに注意を向けるような形状になっているとよいだろう。

このように、トランスフォームとトランスコードは連携すべきなのである。
たとえば、電子ブックリーダーはまだあまり普及していないが、それは人々の本の読み方が多様であり、機械がそれに合わせられるようになっていないからではないだろうか。
紙の本や雑誌は、折ったり丸めたり広げたり破いたり、人間の都合に応じてトランスフォームさせることができる。
このようなトランスフォームに関する柔軟性は、紙がバッテリーのいらないポータブルな表示装置であることと同じくらい重要な意味を持っていると思う。
しかし、それでも僕は、近い将来、電子ブックがあたりまえのものになって、多くの人が日常的に利用するツールになると思っている。
それは、たとえば、本を常に1万冊以上(つまり自分の蔵書全部)持ち歩き、ふと読みたくなった本の一部を簡単に検索して読めるようになると思っているからである。
やはり、iPod(人気のtouchではなくclassicの方)がそうであるように、所有するコンテンツをすべて持ち歩き、好きな時に好きなだけ消費できる、というのは何だかとても気分が良いものである(必要に応じて、ネットからオンデマンドにダウンロードすればよいではないか、と思われるかも知れないが、いつでもどこでもネットにつながるからといって、通信はタダじゃないのだから、好きな時に好きなだけ取ってくるというわけにはいかないだろう)。

そして、電子ブックリーダーは、人間の都合に従ってトランスフォームするようになるだろう。
たとえば、片手で持つときは、短冊のように細長く、両手が使える状態なら、巻物のようにするすると伸ばして、一度にたくさんの文字が読めるようにするのである。
目が疲れてそれ以上読むのが辛くなってきたら、ヘッドフォンのような形になって耳につけると、続きは音声で読み上げてくれるようになるだろう。
つまり、人間の状況に最も適した物理的形状にトランスフォームし、同時に、その形状に最も適した形式にコンテンツがトランスコードされるのである。

情報端末以外で、トランスフォームするといいなと思われるものは、やはり乗り物だろう。
変形する乗り物の元祖は2004年にも映画化されたサンダーバード(1965年にテレビ放映された人形劇)のサンダーバード1号だろうか(ちなみに、この番組中最もユニークな乗り物は2号である)。
これはロケットのような高速飛行形態からジェット機のような両翼を広げた水平飛行形態に変形する(基本的には翼を広げたり閉じたりするだけなのだが)。
また、乗り物から人型のロボットに変形する元祖はジャンボーグA(1973年にテレビ放映された特撮番組)だろうか。
これはセスナ機からロボットに変化するもので、いわゆるヒーロー番組に、人間(異星人を含む)が超人に変身するものとは大きく異なる設定をもたらしたものである(ドラマとしてはあまり変わり映えしなかったけれど)。
ちょっと脱線するが、ヒーロー番組に登場したトランスフォームする携帯型(装着型)デバイスで最も多機能なものは、帰ってきたウルトラマン(1971年にテレビ放映された特撮番組)に出てきた万能(要するに何でもあり)武器ウルトラブレスレットだと思う。

その後、時代が移って、乗り物から人型ロボットに変形するものが主にアニメの世界でいろいろ出てきた。
僕が最も感銘を受けたのは、超時空要塞マクロス(1982年テレビ放映)というアニメの中のバルキリーというロボットである。
この変形(戦闘機形態から中間形態を経て人型になる)はかなりすごかった。
放送後に発売されたバルキリーのおもちゃはこの変形を忠実に再現していた(これはほとんどパズルのようだった)。
将来、バルキリーの実機を本当に作ろうとする人が現れるのではないだろうか。

このような空想上の乗り物と比べるとかなりスケールはダウンするが、以下のような変形する乗り物が存在する。
・トヨタのi-unit(低速移動モードから高速移動モードへの変形)
・立ち上がれる車椅子Pegasus(よくわからないけど車椅子に乗ったまま立てる)
・変形する自転車Switchbike(通常の自転車形態からリカンベントタイプに変形)
・そして、僕たちの作った個人用知的移動体AT(5号機から8号機までは、立ち乗りモードから座り乗りモードへ変形可能)

ところで、今年の夏に、トランスフォーマーという映画が公開されたが、どうもアホみたいな内容だったらしい。
これは、日常的なさまざまなものが目まぐるしい変形の末にロボットの姿になるというCGのシーンが売りの映画である。
CG以外に見どころがなさそうなので、あまり見たいという気持ちが起こらないけれど、何がどうなっているのかほとんどわからないような無茶苦茶な変形をするようだ。
この映画の元になった日本のアニメも見たことがないのだけど、日本のクリエイターの発想力や構想力が評価されている状況は喜ばしいことである。

この映画に触発されて、人間の都合に合わせて物理的形態がトランスフォームし、同時に、そこで提示される情報がトランスコードされるシステムがいろいろ発明されるとよいと思う。
僕もいくつかそういう変形ガジェットを考えているので、いつか作ってみたいと思う。

たとえば、液晶画面の裏側にキーボードが折りたためて、両手で画面の横を持って裏側でキータイプする携帯端末なんてどうだろう。
ディスプレイには、両手の親指を除く8本の指先が触れている(あるいは押している)キーの位置が半透明にオーバーレイ表示されて、文字入力だけでなくダイレクトマニピュレーションもできるというものである。
iPhone/iPod touchの2タッチオペレーションを凌駕する8タッチオペレーションである(しかも画面に指紋が付かない)。
画面上の情報は、裏側のキーでの操作がやりやすいようにトランスコードされる(たとえば、キーの境界線とウィンドウの境界線の一部が一致するように配置される)。
机の上に置いて作業するときは、通常通りの画面とキーボードの位置関係になる。
僕は、画面に触ったり画面を指でなぞったりするのが嫌いだし、片手で(つまり親指で)文字入力するのは苦手なので、こっちの方がきっとうれしいだろう。

これを考えたのは、1997年に東芝のリブレットというモバイルPCを使って歩行者用のナビゲーションシステムの研究をしていたときだった(以下の写真を参照。頭の上に乗っているのはGPSレシーバ)。

walknavi.jpg

このマシンは、ディスプレイ横にポインティングデバイスがあったのだがあまり使いやすくなく、歩きながらキーボードを使うのにも向いていなかった。
だから、キーボードをディスプレイの裏側に折りたたんで使えるとよいと思っていたのである。
これは変形機構に若干の工夫が必要だし、キートップにタッチセンサーを組み込む必要があるのだが、デバイスもソフトウェアもそれほど複雑なものではないので、作るのはあまり困難ではないと思う。

とにかく、トランスフォームとトランスコードが連携することで初めて可能になるものはいろいろあると思う。
トランスフォームするロボットを見て育った日本人の創意工夫が最大限に活かせる日が来るのではないだろうか。

投稿者 nagao : 12:38 | コメント (260) | トラックバック

2007年10月01日

ビデオダイバー

僕のいる研究室で研究開発されたビデオシーン検索システムDivieが一般公開されてからほぼ半年が経過しました。
これを開発した学生は、この研究に関する論文で2つの学会から賞をいただきました。
しかし、Divieのビデオシーン検索が一般に浸透しているとはまだとても言えない状況です。
Synvieのシーン引用型ビデオブログ(このエントリーがその例)も同様ですが、もっと多くの人に使ってもらえるための努力をするべきだと思っています。

たとえば、シーン検索やシーン引用の意義やありがたみがよくわかるように説明して、多くのビデオ共有サイトにその仕組みを取り入れてもらえるように働きかけることです。
それは、学生ではなく、僕がやるべき仕事だと思いますが、まだちょっと戦略が練りきれていないのです(そもそも僕はビジネストークが苦手ですし)。

その理由として、一般ユーザーが投稿するビデオはほとんどの場合あまり時間が長くないので、細かいシーンに分割する意味があまりないこと、比較的時間の長いビデオコンテンツは商用のものが多く公開期間が限定されているため、シーンタグの再利用性が低いこと、また、放送コンテンツを誰かが無断でネットに投稿している場合はいつ削除されるかどうかわからない不安定なものであるため、同様にメタデータの再利用性が低いこと(たとえば、「ニコニコ動画」で投稿されたビデオが削除されて、それへのコメントだけが残されていてもあまりうれしくないですよね)、などがあります。
つまり現在のところ、ビデオシーンへのタグ付けや引用にそれほどコストをかける気が起こらないのもわかる気がします。

ならば、コンテンツホルダーと何らかの契約を結んで、ある程度のボリュームがあり永続化可能なコンテンツを提供してもらうという手がありますが、今のところあまりうまくいっていません。
ただし、ここが大学である利点を活かして、講義ビデオのコンテンツを制作して公開していくことも考えています。

ところで、Divieはビデオコンテンツに深く潜って探索するという意味が込められた名前ですが(DivieはDive into Movieの略です)、ビデオに潜るということに関して、まだまだ説明が十分ではないと思っています。

ビデオに潜る(それをビデオダイビングと呼んでいます)ということは、ただ見たいシーンを探し出すことだけではありません。
ビデオ全体を概観した上でシーンを選び、気に入ったシーンを繰り返し視聴して内容を理解し、さらに背景や言外の意味(ビデオに陽に表れていない人物設定など)を推論することによって、より深いレベルでコンテンツを記憶に留めることを含んでいます。
ですから、シーン検索はそのためのきっかけに過ぎないのです。

そして、発見したビデオシーンの意味を深く考えるためにシーン引用ブログが役に立ってくるわけです。
世界中のビデオ共有サイトで、シーン検索とシーン引用が可能になれば、僕たちの目指しているビデオダイビングあるいはディープサーチがより実用的なものになると思います。

僕たちはまだまだ未熟で、理想とする世界にはまったく手が届いていないのですが、何もできずにただ時代に流されてしまうのでは研究をしている意味がないと思いますので、少しでも理想に近づけるようにこれからも努力を続けていきたいと思います。

これから、Divieの使い方に関するビデオをご紹介します。残念ながらまだあまり話題になっていませんが、このビデオで紹介するビデオシーン検索はこれからさらに重要になっていくと思います。

ビデオシーン検索システムdivie : 00:00 - 00:14
ビデオシーン検索システムDivieはビデオ共有サイトSynvieのサブシステムになっています。Synvieのトップページの「検索」タブをクリックすると、検索のメインページに移動します。

ビデオシーン検索システムdivie : 00:16 - 00:36 ビデオシーン検索システムdivie : 00:16 - 00:36
Synvieで付けられたビデオシーンに対するコメント文を解析して検索タグを抽出しています。特徴的なのは、タグが名詞・動詞・形容詞に分類されていることです。意外に、動詞や形容詞のタグもシーンを特定するのに役に立つようです。

ビデオシーン検索システムdivie : 00:36 - 01:08 ビデオシーン検索システムdivie : 00:36 - 01:08
タグはデフォルトの一覧表示から選ぶこともできますし、検索ページの上下にあるテキスト入力フィールドで任意の文字を入力すると、その文字で始まるタグがインクリメンタルに検索されて一覧表示されますので、その中から選ぶこともできます。選ぶときはタグをマウスクリックします。タグを選び終わったら、入力フィールドの右にある「Dive!!」ボタンをクリックします。これはボタンではなくEnterキーを押してもよいようにすべきですね。

ビデオシーン検索システムdivie : 01:10 - 01:32 ビデオシーン検索システムdivie : 01:10 - 01:32
検索結果のランキングは、選択したタグのコメント内での出現頻度と(複数選ばれた場合は)タグの選択順(先に選んだタグの方が優先されます)に基づいて決定されます。このランキングは視聴回数などのメタデータが増えてきた場合に改良される予定です。
タグにマッチしたビデオシーンは、ビデオ時間を表示するシークバー上で、タグが関連付けられた時間区間を色で示すことで表現されます。ですから、選択されたタグのビデオ内での出現分布が一目でわかるようになっています。

ビデオシーン検索システムdivie : 01:34 - 01:42 ビデオシーン検索システムdivie : 01:34 - 01:42
ビデオの内容はサムネイルで確認できます。さらに、サムネイルの右側にそのビデオに関連するタグの一覧を表示しています。そのタグの一覧を見れば、そのビデオのだいたいの内容を推論できると思います。
また、一覧の中からタグを選択すると、そのタグの出現分布も同様にシークバー上に表示されます。

ビデオシーン検索システムdivie : 01:56 - 02:04 ビデオシーン検索システムdivie : 01:56 - 02:04
シークバーのスライダーの操作とサムネイル表示が連動しています。スライダーは、タグの出現する時間区間(色の付いている部分)をクリックしたり、ドラッグして適当な位置でドロップすることによって移動させることができます。

ビデオシーン検索システムdivie : 02:04 - 02:20 ビデオシーン検索システムdivie : 02:04 - 02:20
ビデオの内容をざっと見るには、このようなタグとサムネイルを用いたインタフェースが適切だと思います。もちろん、これでは音声を聞きながら内容を確認することはできませんし、直接ビデオを見たほうが早い場合もあるでしょうが、検索結果がビデオシーンへのダイレクトなリンク集になっているよりも、周辺の文脈を一緒に表示して検索者への手がかりとする方が優れていると思います。それは、ビデオシーンへのピンポイントな検索はまだ困難であり、そもそも検索という行為は目標物に辿り着く過程にも重要な意味があると考えているからです。

ビデオシーン検索システムdivie : 02:20 - 02:32 ビデオシーン検索システムdivie : 02:20 - 02:32
サムネイル画像にマウスカーソルを置くと拡大表示されます。この拡大表示はビデオを100%の表示倍率(Synvieでは25%刻みで表示倍率を変更できます)にしたときのフレームサイズとほぼ同じ大きさです。つまり、この拡大表示の大きさでビデオを見ることができます。

ビデオシーン検索システムdivie : 02:38 - 02:52 ビデオシーン検索システムdivie : 02:38 - 02:52
さらに、画像をクリックするとその時間からビデオが再生されます。ビデオは別ウィンドウに表示されます。このあたりのインタフェースにも改良の余地がありますね。

ビデオシーン検索システムdivie : 03:52 - 03:58
Divieでのビデオシーン検索の説明は以上です。divieというキーワードでWeb検索をすると、前述のメインページへのリンクが(今のところ)ランキングのトップに出るようです。やはり、Flickrみたいに名前には工夫が必要ですね。

投稿者 nagao : 01:57 | コメント (221) | トラックバック