« タイムマシンボード:進化したホワイトボード | メイン | オムニムーバー、人をよける »

2009年02月22日

形態素を数えてみたら

人は一生のうちにどれだけの量の文章を書くのだろう。

前回のエントリーで紹介したタイムマシンボードのテキスト入力のために、僕がこれまでに書いてきた文書を使って辞書(読みや表記の一部から単語を引くもの)を作ってみた。
それには、2冊の著書(1997年と2000年に書いたもの)とこのブログ(2005年8月から今月までのもの)といくつかの(単著の)論文から得られた形態素(文法的に分割される文の最小単位)が含まれている。
僕は、これはほぼ10年分くらいの個人的な文書量だと思っている(ただし、英語の文献や、共同執筆の論文やメールなどは含まれていない)。

延べ形態素数は約20万でその異なり数(重複を除いたもの。助詞と助動詞と記号を除く。動詞や形容詞などの活用するものはその基本形の異なるもの)は約9千であった。
意外に少ないなあと思う。
確かに、僕が公開を前提に書いている文章は、専門的な内容がほとんどだけど、広い視野で研究に取り組んでいるつもりなので、使っている語彙はもっと多いと思っていた。

ちなみに、広辞苑第5版の項目数は約23万で、現時点のWikipedia日本語版の項目数は約56万である(これらは複合語や名詞句を含むので、厳密には比較対象にはならない)。

僕は他人に読んでもらえるような文章を書くことは、頭を使うためのきわめて重要なトレーニングだと思っている。
普段から人に見せる文を書く訓練をしていない人(もちろん、メールは訓練にはならない)は、まとまったドキュメントを書くときに、話し言葉に近い表現(「なので」とか「○○したい」とか「こういった」とか)を多用するため、その結果は、体裁が悪く、質が低いものになる(そのため、卒論発表会などで回覧される論文にはひどいのが多い)。
だから僕は、これからも文章を書いて公開していこうと思っている。
これは誰かのためではなく、あくまで自分のためなのである。

しかし、昔はともかく、今は論文を一人で書くことはほとんどなくなったし、本や解説記事は(書けとは言われているけれど)最近さぼっていたため、もっぱらこのブログが僕の(単独による)著作物になっている。
実は、このブログは形態素解析がやりやすいように、一文の後に必ず改行を入れているのである(形態素解析システムは改行までを一文とみなすことが多いので、文の途中に改行があると、その前後の語が正しく解析されないことがある)。

このブログは僕にとって日記ではないので、日常的な出来事などはほとんど書いていない。
基本的に僕が関わっている研究の話を書いている。
また、論文ではないので、あまりむずかしいことは書かないようにしている(それでも、知り合いからは「もっとわかりやすく書いて」と言われている)。
さらに、悪口はできるだけ書かないようにしている。
大学のことにせよ社会のことにせよ、腹の立つことはとても多いのだけど、実名をさらしているのだからめったなことは書けない(僕がリミッターを外して、思っていることをそのまま書いたら、すぐにこのブログは閉鎖になるだろう)。

そのため、形態素の異なり数があまり増えていかないのは当然なのかも知れないけれど、興味の対象が狭い範囲に限定されているのでは、教育者として適切ではないと思うので、形態素の異なり数が増えていくように執筆活動を続けていきたいと思う。

つまらないことにこだわっていると思われるかも知れないが、たとえ本を何冊も書いていたって、書いていることがいつも似たような内容なら、その著者に明確な進歩があるとはあまり思えないのである。
だから、書いてきた文章の形態素の異なり数を一つの目安とすることは、それほどおかしいことではないと思う(機械的な言語処理がさらに高度になって、意味解析の精度が十分なものになったら、これとは違う指標を用いることになるだろう)。
僕は、これから1年ごとにこの数値を調べてみようと思っている。

投稿者 nagao : 2009年02月22日 12:03

トラックバック

このエントリーのトラックバックURL:
http://blog.nagao.nuie.nagoya-u.ac.jp/mt/mt-tb.cgi/162