« 2009年09月 | メイン

2009年10月11日

継続は力なり

2005年8月にこのブログを始めて、今回でようやく100エントリー目になりました。
毎日書いている人なら100日で達成することですが、僕は4年以上もかかってしまいました。
今後、特に時間的に余裕ができる予定もありませんので、おそらくこれからも同様のペースで書いていくことになるでしょう。

僕としては、このブログを書いてきたことで、特に新しいことができるようになったわけではないと思っているのですが、まとまった文章を書いて公開していく習慣が身に付いていないと、考えていることがうまく整理できず、人にちゃんと伝えられなくなってしまうのではないかと思っていますので、これからも細々と続けていこうと思っています。

ただ正直、このブログを書くことで、僕が普段考えていることや、これから研究したいと思っていることを、指導している学生たちに多少なりとも知ってもらいたいという気持ちがあります。
でも、いざ学生から「先生、ブログ読みましたよ」とか言われると、照れくさくて話をそらしたりしています(われながら複雑なのです)。

よく「エントリーが長いよ」と言われるのですが、これには理由があります。
やはり、文章が短いと文脈がわかりにくくなりますし、後で読み返しても自分が何を考えてこれを書いたのかわからなくなるのがまずいと思って、それなりの分量にならなかったものはブログにアップしていません(つまり、書きかけてアップしなかった草稿が結構あります)。

ちなみに、僕が流行りのTwitterをやろうと思わない理由の一つは、周囲の文脈から切り離された短文では、深い内容を伝えることは無理なのではないかと思っているからです。
単なる「つぶやき」にそんな深い意味を求める人はいない、と思われるかも知れませんが、僕は、あまり意味のない文を不特定多数が検索可能な状態でネットに置いておきたくはないのです。
これはけっして、短文には深い意味がないと言っているのではありません。
ブログや動画など、参照しているコンテンツが明確になっている場合のコメント文は、ある程度文脈を読み取ることができるので、短くても深い意味を伝えることができるでしょう。

さて、100エントリーというのは量としてはあまりたいしたことはなさそうですが、切れのよい数ですので、このテキストを使って少し実験をしてみようと思います。
まず、文書解析をして自動的にカテゴリやタグを生成してみようと思います。
今まで、エントリーを内容に基づいて分類してこなかったのは、面倒だったからというのもありますが、データがそれなりに揃ったら、それをじっくり眺めて分類方法を考えようと思ったからです。
それに、初めにカテゴリを設定しておくと、内容とカテゴリが合っているのかどうか悩んだり、カテゴリのバランスを取ろうとか余計なことを考えて煩わされると思ったのです。
今後は、これまでのエントリーから機械的に抽出した特徴で分類した結果を、人手で編集することでカテゴリを作成していこうと思います。

と思っていたら、京都大学がNTTの研究所と共同で、ブログを解析したコーパス(例文データベース)を公開していることを知りました(参考
これは、大学生81人が執筆した249記事(4186文)を含んでいるそうです。
このコーパスは、形態素や構文情報の他に、省略や照応(代名詞などの参照)のアノテーション、さらに評判表現アノテーションという、何らかの対象に個人的意見を述べている表現に、以下のような意味的属性を付けたものを含んでいるそうです。

評判タイプ:評判の種類と評判の極性。
当為: 提言、助言、対策。「~すべきだ」「~しましょう」
要望: 希望、要求。「~してほしい」「~を求める」
感情(+か-を伴う): 気持ち。「好き」「悲しい」
批評(+か-を伴う): 賛成と反対、称賛と批判。「素晴らしい」「納得できない」
メリット(+か-を伴う): 利点と欠点。「効果がない」「うるさい」
採否(+か-を伴う): 積極的利用、推進。「利用する」「導入する」「採用する」
出来事(+か-を伴う): 良い/悪い出来事や状態。「壊れた」「受賞した」

これは、なかなか興味深い言語データです。
評判情報に関しては、機械的な解析のみでは精度が低いですし、人間が修正するとしても、著者本人にしか正解がわからない場合があるので、ちょっと怪しいですが、言語構造に関しては、機械学習用のデータとして有益だと思います。
以前に、ワードローグというシステムで、このブログを形態素解析して、未知語(辞書にない語彙)や省略・照応の情報を付けていたのを思い出します(忙しくてまだプログラムの続きを作っていませんが)。

僕は、人の言語表現力が時間(つまり経験)とともにどう変化していくかに興味がありますので、それが可視化できるような仕組みを考えています。
言語表現力は文章をちゃんと書く能力のことで、それには、記述している文の構文的適格性(文法的に正しいかどうか)、語彙の適格性(言葉を正しく使い分けているか)や多様性(同じ言葉ばかり使っていないか)、文脈の論理性(前の文とのつながりが適切か)などが関わってくるでしょう。
他のコンテンツを引用している場合は、引用箇所とそれに対する言及箇所に明確な対応関係がないといけないと思いますので、それも評価してみたいと思います。
さらに、主張していることがぶれていないか、結論を述べずに先送りにしていないか、説明している内容が事実と矛盾していないか、などの内容の信用性に関わる特徴を、比較的簡単に調べられる仕組みについても考えてみたいと思っています。

ちなみに、このブログは、100エントリーで5139文(各エントリーのタイトルを含む)の分量です。
10000文くらいあると、それなりに面白い結果が得られそうなのですが、達成するまで、さらに3~4年かかってしまうかも知れません。

さて、次回からは、このブログをリニューアルして、トピックカテゴリやプロフィールなどを追加していく予定です。
更新は今月末になりそうですが、気が向いたときにでも見にきていただけると幸いです。
今後ともどうぞよろしくお願いします。

投稿者 nagao : 17:21 | トラックバック