言語学が“科学”として確立する日へ
コンピュータ科学専攻 辻井潤一 教授

単語間の相互関連を統計的に処理して体系化
1600万件もの生命科学情報の検索を第1弾に

辻井潤一 教授 「インターネットで情報を検索するとき、余計な情報を除いて、必要な情報だけを出してくれたら、ありがたい」――こんな希望が叶えられる見通しが出てきた。科学技術情報、特に、生命科学分野に特化したものながら、1600万件という膨大な文献情報から有用性の高い情報を抽出するシステムが、コンピュータ科学専攻の辻井教授の手で完成間近だ。「ネットワーク中の膨大なテキストデータを、言語処理技術で管理することで、情報の効果的な引き出しが可能です。計算機の能力、電子論文誌の急激な増加など、環境が整ってきた今こそ、アタックすべき研究です」。この技術の基本コンセプトを、社会科学、人文科学などの研究にも広げたいと言う。書籍や音楽情報の検索システムが相次いで登場しているが、辻井教授は、それらのシステムを凌駕する「汎用で広範な波及効果を持つツール」を目指している。それは言語学そのものを科学として確立するという、壮大な目標とも密接に関連している。

社会科学、人文科学、ナノテクなどにも広げる

 言語学に革命をもたらしたN.チョムスキーの著書『Syntactic Structures』が発表されたのが、ちょうど50年前の1957年。1980年代には人工知能、認知科学という有力な研究分野が台頭した。この2つは連携しながら、言語を計算の側面から捉える方法論を発展させ、人工知能は計算機科学、工学と、認知科学は心理学、大脳科学、哲学などと結びつき、言語の理論的研究を支えてきた。

辻井潤一 教授 また、科学の側面だけでなく、計算機の出現による環境の変化も大きい。もっとも劇的な変化は、膨大なテキストデータが計算機で利用できるようになったことだ。言語の文法を形式化して計算機にわかるようにする研究、そのための論理系や数学モデル、そして、巨大な言語データを操作できる計算機の発展という三位一体によって、言語処理の研究が飛躍的に進歩した。辻井教授がフォーカスするのは、未完の域にある意味の処理にメスを入れる、新たなパラダイムのシステムだ。「でも、私たちのアプローチは、ただちに人の言語が理解する過程の解明とか、言語に関する理論をつくるという方向ではないのです」。

 どういうことか。キーワードからほしい情報を引き出す検索システムと異なり、『この単語とこの単語が、このような感じでつながっているセンテンスを呼び出してほしい』といった検索要求を受けて、適切な情報を見つける技術の確立が第1の目標で、技術研究の成果を脳の中での言語活動の理論と結びつけるのは、次世代の、息の長い研究になるという。

 インターネットには何億、何兆語という言語データが溢れており、単語間の相互関係を統計的に処理して計算機で扱えるようにすることで、検索や翻訳の質は間違いなく上がる。『ある人の人柄は、その友人を見るとわかる』のと同じように、単語の意味は、一緒によく出る単語を見ればわかるというのだ。抽象度の高い理論が必要とされていた単語の意味が、実は膨大なデータの中に隠れていることに着目し、それを統計確率のモデルで捉えることを目指している。

 「同じ視点で研究していた米国のグループが、最近、会社を興しました。ベンチャーキャピタルからの資金が膨大に集まったと聞いています。いま、インターネットを席巻するキーワードによるシステムの限界を、言語の構造を使って乗り越えるというキャッチフレーズが注目されたようです。私たちとよく似た方向性ですが、数学的な体系や索引構造の技術で、私たちに優位性があると思います」。

1600万件の論文から自動的に抽出されたタンパク質の関係ネットワーク
1600万件の論文から自動的に抽出されたたんぱく質の関係ネットワーク

 このような手法で、辻井教授は、膨大な生命科学のテキストから科学者が知りたい情報を取り出すシステムを開発している。GENIAプロジェクトだ。米国の国立医学図書館の論文アブストラクト1600万件にアクセスする、特に、たんぱく質に関する情報を構造化するシステムだ。生命体には何万種類ものたんぱく質があり、いろいろな仕事を分担している。GENIAは、特定のたんぱく質がどの生命現象に関与しているか、別のたんぱく質と反応した報告があるか、その場合、どのように反応したかなど、生命科学者がほしいと願っている情報を引き出す研究だ。「この分野では、1日千数百件のペースで論文が増え続けています。必要とする情報を見つけるのがいかに困難なのかがわかるでしょう。私たちの研究は、生命科学を支える重要な使命を担っています」。

基本コンセプトは“ジェネリックな”システム

 次の目標は、生命科学から他の領域への展開である。社会科学、ナノテク、物性科学など候補はいろいろある。生命科学での方法が、他でもうまくいくとは限らない。ただ、技術の骨組みは変わらないという。どういう領域にも対応できる汎用な技術――辻井教授が旗に掲げるジェネリックなシステムの意味がここにある。

 「言語への興味は、もともと人間が好きだったから。言語に科学的にアプローチすることで人間の思考を解明したいと、いまも思っています。でも、人間の言語活動、脳の計算過程の解明と大上段に構えると、壁にぶつかる」と若い研究者に研究方法を指南する。最初から直接、最終目的の奥の院に手を伸ばすよりは、迂回の道かもしれないが、周辺を攻めて改めて奥の院へ攻め上る、このあたりが研究のカンどころと言う。

 「ボクの夢ですか。最終的には、やはり、言語を自然科学の対象とすることですね」。現在の言語学は、初期の物理学と似ている。物理学は数世紀を経て科学になったが、言語学は、計算機のおかげでやっと観察と操作ができるようになった段階。望遠鏡で天体が観測できるようになったレベルと喩える。「観察と理論化が絡み合って科学になるまでには、相当時間がかかるでしょう。できれば、その行く末を見届けたいですね」と言って笑みを覗かせた。

ISTyくん