「言語研究って面白いですよ」
コンピュータ科学専攻 宮尾祐介助教(現教授)

コンピュータに英文解析と意味理解の能力を
“考えるコンピュータ”も視野に研究を加速

 「太郎は花子が好き」、「花子は太郎が愛している人」。この2つの文章は、高校生以上ならほとんど同じ意味だとわかるだろうが、いまのコンピュータには、人間と同じような理解力はない。宮尾助教が目指しているのは、コンピュータが英語文の構造(構文)を解析し、意味を理解する能力を持たせることにある。「英語をはじめ外国語の勉強が嫌いだったので、機械が自動翻訳してくれるようになったらハッピー」という動機で研究を始めてから10年。構文の解析力は高校生レベルまで上がったが、究極の目標である機械翻訳に結びつけるにはまだ大きな山がある。それを乗り越えると、 “考えるコンピュータ”という画期的なシステムも夢ではなくなる。宮尾助教はその姿を描きつつある。

賢い検索や機械翻訳を目指す

 文章は主語や目的語、述語などで構成されるが、その文章の構造(構文)を計算するのが構文解析。最初に挙げた例文では、太郎が主語で、花子は目的語である。2つの文章は表現がちがうだけで意味は同じとたいていの人はわかる。つまり、人間は普段意識せずに、いろいろな表現の文章を解析し、「これは同じことを言っている、いや、ちがう」と理解しているのだ。しかし、コンピュータにはそういう能力が備わっていない。コンピュータが文章の意味を理解できるようにするには、文章がどのような構造になっていて、どういうふうに意味を組み立てているのかを計算することが必要である。

構文解析と意味理解を概念的に説明したもの
構文解析と意味理解を概念的に説明したもの

 コンピュータが人間の言葉の意味を理解するようになると、とても役に立つツールになる。人間の質問に答えたり、英語を日本語に翻訳だってしてくれる。たとえば、新聞の記事内容を同じ意味のわかりやすい言葉に置き換えて、子どもたちの理解を助けたりすることもできる。すなわち、文の構造を解析し、言葉の持つ意味をコンピュータが理解できるようにしたい―宮尾助教がチャレンジしているのは、まさに、一番根っこにあたる研究である。

 現在、中心軸に置いているのが英語の構文解析。英語には単語を文法機能や形態などで分類した品詞として、名詞や動詞、形容詞、前置詞など8つほどあるが、宮尾助教は、名詞の中でもさらに分類を細分化するなど工夫を凝らしている。分類を細かくすることによって、人間が無意識のうちに持っている文法をコンピュータが獲得しやすくする第一歩にしようと考えているのだ。そこで、新聞やインターネット上にある膨大な文章データに注目した。これらには正しい英語の文章がたくさんあり、その文章の中で同じ性質を持っている名詞群をA、別の性質を持つ名詞群B、ある性質を持った動詞群C、といった具合にグルーピングし、同時に、これらがどういうつながり方をするかといったことを捉える研究を推進している。「新聞などの文であれば、英文の構造をかなり正しく解析できるレベルには来ましたね」

 コンピュータの能力は徐々に高まってきたが、構文解析だけでは言葉の意味を理解することはできない。コンピュータが言葉の意味を本当に理解するための突破口が、構文解析に加えて、単語の持つ意味に関する研究である。冒頭の「太郎は花子が好き」「花子は太郎が愛している人」の文章で、「好き」という単語と「愛している」という単語は、文の構造と無関係に、単語がもともと近い意味を持っている。文章の主語や目的語を解析することに加えて、「好き」と「愛している」の意味がほぼ同じであるということがわかってはじめて、冒頭の2つの文章が同じ意味を表していることがわかるのである。構文解析の研究を展開している研究者は多いが、“構文解析と単語の持つ意味”の両方を融合させてコンピュータに“知”を付与する研究を進めている研究者は少ない。この視点こそ宮尾オリジナルである。

実際の構文解析の結果
実際の構文解析の結果
構文解析で使っているデータ構造
構文解析で使っているデータ構造

※画面をクリックして拡大画像をご覧下さい

苦手だった外国語の勉強が研究の発端

 「英語が苦手でした。だから、機械翻訳ができたら…」とこの研究に着手したのは1998年。コンピュータ科学の辻井潤一研究室に来てからだった。当時は文の解析技術が未熟で、その研究から足を踏み入れたが、試行錯誤の連続だった。手応えをつかんだのは2、3年後の21世紀を迎えてから。「データを使って文法を獲得するという視点で追求した結果が、いまにつながっています」

 とはいえ、このままで自動翻訳が可能になるわけではない。その前に、構文解析や意味理解を使って検索をより賢くできるようにすることを目指している。何か知りたいことを文章で入力すると、同じようなことを表現している文章をインターネットや本などから検索するといった利用法である。そうした使い方をしながら意味理解能力を高め、機械翻訳ができる“考えるコンピュータ”へと発展させたいのだ。

 「言語研究って、おもしろいですよ」。そう言って目を輝かせる。「言語というのは、基本的に自然現象でしょう。誰かがつくったものじゃなく、勝手に生まれ出たもの。でも、何かのルールに基づいて動いているのはまちがいないですよね」。「しかも、人間だけが言語を使いこなしている。誰かが何かをしゃべったら、それをほかの人がきちんと理解できるというのは、共通のルールを持っているからでしょ。みんなが使いこなしているのに、そのルールをまだ誰も知らないんです。それを見つけるワクワク感がありますね」

 言語を研究することは、人間を知ることなのだ。コンピュータが文章や言葉を理解する日が来ると、コンピュータの知力を生かして、人間はもっと創造的な仕事に打ち込むことができるようになる。宮尾助教は、そういう時代の幕開けを自らの知で拓こうとしている。

ISTyくん