« フォーカル・ポインタ | メイン | 知能メカトロニクスへの接近 »

2009年03月14日

ビデオアノテーション研究には未来があるか

つい先日、情報処理学会第71回全国大会という研究集会が滋賀県の琵琶湖の近く(といっても琵琶湖は見れなかった)の立命館大学で開催された。
僕のいる研究室からは、ほぼ全員がそれに参加して研究発表を行った(僕も一応、発表登録をしたが、学生の発表と時間が重なってしまったのでキャンセルした)。

その中で「マルチメディアとメタデータ」という僕たちの研究テーマとよくマッチするセッションがあり、僕のいる研究室の学生の一人がそこで発表した。
これまでに作ってきたシステムのデモをいろいろ見せながら、実験結果も報告して、なかなかよい発表ができたと思っている。
僕はこのシステムの設計にはずいぶん知恵を絞ったので、かなりの思い入れがある。
この学生もよくがんばったし、僕の期待にも応えてくれた(正直、大学に来てから今までで、最も指導のし甲斐があった学生である)。

しかし、そのセッションの座長の評価はさんざんであった(優秀な発表を表彰する賞に関して「該当者なし」という判断がなされた。これは僕たちの研究発表が特にダメという評価ではないが、すべての発表がダメという評価なので、いずれにせよ、高い評価ではなかった。ちなみに、座長がこのような判断を下したセッションは110件中たったの3件だったそうである。まったく関係がないが、「スター誕生」という往年の人気番組の萩本欽一のせりふ「バンザイ。。。なしよ」というのを彷彿とさせる)。
何がどう悪いのかまったく説明がなかったので、いったいどういう方向にこの研究を導いていけばいいのか迷いが生じてきた(本人に直接、何が問題なのか問い合わせればよい、という意見もあるだろうけど、「(賞の)該当者なし」とだけ言い切ってその場を立ち去った人間に何を聞いてもまともな答えは返ってこないような気がする)。

僕たちが取り組んでいる「ビデオアノテーション研究」すなわちビデオに対するコメントやタグなどのメタ情報を収集し、ビデオの意味的な内容を解析して、さまざまなアプリケーションを実現する研究は、今後、大きな発展の余地があるのだろうか。

最近、YouTubeもビデオアノテーションの仕組みを取り入れ、ビデオの投稿者が許可するユーザーが、ビデオ内の任意の時間の画像の任意の部分に吹き出し風のコメントを付けたり、他のコンテンツへのリンクを付けたりできるようになっている。
ニコニコ動画よりまともなコメントが付くようになれば、いろいろと利用価値もあるだろう。

ちなみに、上記のセッションでは、ニコニコ動画のコメントから意味のある情報が抽出できるかどうかを試みた研究発表もあったが、結果はあまり有意義なものではなかったようである。
まあ、これは研究対象がダメすぎたのかも知れないけれど。

僕たちが研究しているビデオシーン引用もこれからさらに面白くなっていく予感はするのだけど、今のところ、あまりよい反応はない。

ビデオアノテーションに関しては、明らかに、僕たちの研究が先行していたと思っている(僕がビデオアノテーションの研究を始めたのは1998年のことである)が、もうほとんど「時代に追い付かれてしまった」という気がしている。
だから、再び引き離すには一体何をすればいいのか、また、僕たちにこれから何ができるのか、苦しみながら必死に考えているところだったのである。
そんな状況で上記のような評価をもらったのでショックが大きかった。

確かに、現時点で、ビデオアノテーションによってできることはあまり多くはないだろうし、驚くような結果(たとえば、任意のキーワードにぴったりマッチするビデオシーンが検索される、など)が出ているわけでもない。
しかし、ビデオ(のシーン)を主要な素材としてネットならではのコンテンツを作っていくためには、どうしてもこの研究が必要だと思っている。
だから僕は、この研究には未来があると信じている。

投稿者 nagao : 2009年03月14日 02:17

トラックバック

このエントリーのトラックバックURL:
http://blog.nagao.nuie.nagoya-u.ac.jp/mt/mt-tb.cgi/165

コメント

はじめまして。ビデオアノテーションのための標準フレームワークやアノテーション済みデータセットが公開されていれば敷居が下がって研究コミュニティも盛んになるかもしれませんね。

標準アノテーションフレームワークのUIMAはビデオアノテーションも範疇に含むようですが、実際にはまだテキストアノテーションしか実装されていないようです。

UIMA Overview:
http://incubator.apache.org/uima/downloads/releaseDocs/2.2.2-incubating/docs/html/overview_and_setup/overview_and_setup.html#ugr.ovv.conceptual.uima_introduction

Informedia(http://www.informedia.cs.cmu.edu/)のような大規模プロジェクトに予算がついていたところを見ると、ニーズ=未来はありそうな予感がします。

投稿者 shima : 2009年03月14日 11:41

shimaさん、

コメントありがとうございます。
ビデオアノテーションの標準化とツールについては、MPEG-7が昔からさんざんやろうとしてうまくいっていませんよね。
私は、標準化より先にまずそのありがたみを直感的に理解してもらえるのがよいと思っています。
その点でYouTubeはいい線いっていると思うのですが、残念ながら小手先の技に終始していて、その先の未来を感じさせてくれないような気がします。
私たちは、まだまだ弱小でたいした影響力も持っていませんが、それでもこの技術の本質は理解しているつもりなので、あきらめずに研究を続けていきたいと思っています。
ちなみに、Informediaは昔からよく知っています。
日本ではNSFのようなファンドがないので、大学の一研究室が大規模なプロジェクトを先導するのはむずかしいです。
アメリカは研究への投資が合理的で規模も大きいので、うまくやれば世の中を変えるほどのインパクトをもたらすことが可能である点が脅威です。
しかし、お金がなくても知恵があれば、何とか対抗できると思っています。

投稿者 nagao : 2009年03月15日 01:12

はじめまして。
4年ほど前に修士にて映像とメタデータに関する研究をしておりましたものです。
スタンスとしては、映像制作者がメタデータを効率よく付加していくにはどうすれば良いかといった視点での研究でしたので、もしかしたらズレたコメントになるかもしれません。
ニコニコ動画のような視聴者側からのアノテーションは、そこに何の「責任」も「メリット」もまだ発生してないため、どうしても再利用価値の低い刹那的な内容になりがちなのでしょう。投稿系サイトでは動画コンテンツ自体もシーン抽出・再構成に耐えられるようなものは少なそうですし。(弾幕=盛り上がるシーンと解釈して、コメント数分布で特定のシーンを抽出といった別の利用法は考えられますが、、、)
私の扱ったテーマは、放送大学のような教育番組を個人学習用に再利用・再構成するための、制作者側のメタデータ・オーサリングでした。教育番組であればメタデータ自体もコンテンツになりうるし、シーン抽出・再構成にも比較的向いているかということで(^^;)
やはり、この手の話は技術が広く普及してからでないとメリットが享受できないことが普及が進まない大きな原因の一つだと思います。仰る通り、まずは「ありがたみを直感的に理解できること」ですね。
同じ分野を研究していた者として、長尾様の研究が大きな実を結ぶことを期待しております。ぜひ頑張って下さい。

投稿者 misakin : 2009年03月21日 16:43

misakinさん、

丁寧なコメントをありがとうございます。

> スタンスとしては、映像制作者がメタデータを効率よく付加していくにはどうすれば良いかといった視点での研究でしたので、もしかしたらズレたコメントになるかもしれません。

いいえ、全然ずれていませんよ。
ビデオアノテーションは制作者・管理者が作成するものと、ユーザーが投稿するものに大きく分かれ、その目的が異なりますが、それらのデータをうまく活用したいという点ではほぼ同じ問題を解くことになります。
つまり、対象となるコンテンツの意味を解析して、その結果を高度な応用に役立てるということです。

> ニコニコ動画のような視聴者側からのアノテーションは、そこに何の「責任」も「メリット」もまだ発生してないため、どうしても再利用価値の低い刹那的な内容になりがちなのでしょう。投稿系サイトでは動画コンテンツ自体もシーン抽出・再構成に耐えられるようなものは少なそうですし。

そう思われる気持ちはよくわかりますが、それでも、アマチュアによって制作・投稿された動画とそれへのユーザーからのアノテーションを研究することには意味があるのです。
そもそもWebというのは、ユーザーによって発展していくオープンなものであり、だからこそ、現在のように大規模でかつ複雑なものになったのです。
このようなオープンで複雑なWebから世界を理解するための手がかりを抽出する、というのは目指すべき重要なターゲットの一つだと思っています(Googleのような力ずくなやり方は嫌いですが)。
コンテンツやアノテーションの再利用価値が高いか低いかは、実際に再利用する段階で初めて決まるもので、それらが制作・投稿された時点で決まるものではないと思っています。

> 私の扱ったテーマは、放送大学のような教育番組を個人学習用に再利用・再構成するための、制作者側のメタデータ・オーサリングでした。教育番組であればメタデータ自体もコンテンツになりうるし、シーン抽出・再構成にも比較的向いているかということで(^^;)

その考えはおそらく正しいでしょう。
人類の未来にとって、より有益なのはやはりエンターテインメントではなく教育を目的として制作されたコンテンツだと思います。
しかし、残念ながらその量は圧倒的に少ないので、どうしても偏ったものになってしまうのです。
それを補うためには、教育用でないものも含めて扱わなければならないのです。

> やはり、この手の話は技術が広く普及してからでないとメリットが享受できないことが普及が進まない大きな原因の一つだと思います。

それはその通りですが、たとえば、ブログはそのメリットがよくわかるがゆえに普及したのではありませんよね。
自分の時間を使って、誰に読んでもらえるのかよくわからない文章を継続的に書いていくことに十分に見合うメリットがあると、本気で信じている人のみがブログを書いているわけではないと思います。
もしそうなら、日本のブログ人口が世界で2番目に多いなんて状況になるはずがありません。
ですから、ビデオアノテーションもいつの日か個人的なメリットを超越して、その価値を理解してくれる人たちによって発展していくものだと私は思っています。
すべての人が「ありがたみを直感的に理解できる」とは思っていませんが、そういう人がWebユーザー全体の1%くらいいるようになれば、それで十分だと思っています。

> 同じ分野を研究していた者として、長尾様の研究が大きな実を結ぶことを期待しております。ぜひ頑張って下さい。

どうもありがとうございます。がんばります。

投稿者 nagao : 2009年03月22日 22:34