膨大な言語データの中のナゾに迫る
創造情報学専攻 田中久美子 助教授

計算言語学・記号論の観点から“法則”を探求
人の言語処理を支援するシステムを相次ぎ創造

 「出会う」と「邂逅(かいこう)」。意味はそれほど変わらない(厳密には少し違う)が、あなたにとってどちらがやさしい言葉と感じられるかと聞かれたら、ほとんどの人が「出会う」を選ぶだろう。それは、その単語に何回めぐり合ったかの頻度が大きくかかわっていると言われているが、そのことはまだ実証途中にある。「膨大なテキストデータを調べることによって、言葉のやさしさ、むずかしさを実証できれば、教育システムなどへの応用は計り知れないですね」。田中助教授が目指しているのは、言葉を言語データ上で科学的観点から研究し、言語データの中に秘められた法則を見つけ出して、それを言語処理の支援技術として社会に還元する点にある。

1かな1押し入力の「かな漢字変換」

田中久美子 助教授

 「初めに言葉ありき。言葉は神とともに…」。新約聖書ヨハネの福音書は、この言葉から始まる。田中助教授の研究は、言語データに内在する性質を数理学的に解き明かすことから始まった。インターネットの普及で、テラ(1兆)バイト単位という膨大なテキストデータに触られるようになったからである。この攻め口は、ここ10年ほどで人類史上初めて可能となった。

 田中助教授は、計算機科学や数学的なアプローチによってテキストデータを操り、言語の数理モデルや計算記号論研究の成果、言語処理の基盤技術を駆使して、多くの言語ソフトウェアを創り上げてきた。中でも、ユニークなのが文字入力方式だ。「一般化かな漢字変換」(TouchMeKey)では、あいうえおの順に始まる50音を4つの領域に分けている。「あ・か」を1、「さ・た」を2、「な・は・ま」を3、「や・ら・わ」を4と割り当て、これらのボタンを押すことで形成される膨大な漢字辞書を内蔵していて、「1かな1押し入力方式」によってほしい候補を探す仕組み。背景には、人間に特有の言語活動を支えている子音を基本として文章を効率よく入力するという言語学上の視点がある。

 たとえば、「漢字」という単語を選びたいとき、「1、4、2」の順でボタンを押すと、「幹事」「監事」「感じ」「漢字」など表示される多くの候補の中から「漢字」を選び出す。その後は適応的な確率言語モデルを使って、文脈に合った候補が上位にくるようにしてある。一般の人にも身障者にも身近で有用な入力システムとなるように仕掛けが施されているのだ。「辞書を変えれば、英語やフランス語、中国語、タイ語などの入力システムにもなります。目標としているのは、ユニバーサル・コミュニケーション。ボタンも4つ以上でもいい。携帯電話は10個のボタンを使いますし」。

 日本語や中国語を学ぶ西洋人にとって、漢字の検索はとても頭の痛い問題。書き順はもとより、漢和辞典を引くこと自体がむずかしい。そこで、漢字を構成する縦、横、その他の“線”に注目した検索システムも特徴的だ。「東」を例にすると、縦3本、横4本、そのほか2本の線で構成されるので、その本数を打ち込むだけで検索できる。この研究の背景には、人間が漢字などのシンボルをどのように認識するのか、記号の認識研究がある。

 また、文章の分節(分割すること)や、係り受けにしても、何らかの普遍のルールがあると田中助教授はみている。現在の工学上の言語処理において、文を単語や節で切ったりできるのは、処理システムに付帯する辞書に単語が定義されているからだ。「かな漢字変換」の例では、「かな/漢字/変換」に分けられる。しかし、たとえば、「Harry Potter and」に続くひとまとまりの文字列を得ようとする場合など、辞書を用いずに分割点が必要となることもある。そのような場合に分割に関する科学的な仮説を用いることで、切れ目が判定できないだろうか。そのようなことを実現したいのだ。「見通しは明るいですよ」と思わず声が弾んだ。

「記号論の世界から言語を見つめたい」

田中久美子 助教授

 文章の編集にも目を向けている。論文や投稿文などをまとめるとき、同じ単語を使うケースが多い。つまり、語彙の再利用だ。どの程度、語彙を再利用して文章を書いているかを調べたところ、だいたい7~8割の語彙はその文中での再利用で、残りの3~2割の新しい単語で新しい文脈を展開するそうだ。「シャーロック・ホームズの小説も、谷崎文学だって、この範囲に入っています」。この再利用率の高さは、工学的に応用、たとえば、キーワードなど柱になる単語を編集している文中でできるようにしておくと、入力時間の迅速化や表現の統一など大きな利点が出てくる。論文だけでなく、普通の文章やプログラムを書くときにも有効だし、マニュアルや教科書にも使える。「応用は極めて広いので、日本語版、中国語版など、いろいろな言語に対応したものを用意したい」と意欲的だ。

 「今も、言語のナゾ解きに魅せられています」と自己分析する。言語に潜むナゾを解くと、一段と高い壁にぶつかり、それを数理学的な手法を用いて解決へと導く。その繰り返しがユニークな入力システムを創造する力になった。自らフランス語や中国語を愛する語学オタクでもある。


入力システム、漢字の検索システムなどのソフトウェア
人の言語処理をサポートすることを目的に創りだされた入力システム、漢字の検索システムなどのソフトウェア

 田中助教授は、学生には机上の理論だけで終わらせないで、ソフトウェアに結びつけるよう指導している。実践することでより深く対象を理解し、技術も身につくことを実体験で示しているだけに、説得力がある。10年後くらいには、科学的・体系的に言語研究をまとめたいという。計算言語学・記号論の世界から大胆に切り込んで集大成することを目標に、研究の仕込みを続ける毎日である。

田中助教授

ISTyくん