次世代Webの世界標準、“日本発”で実現したい
創造情報学専攻 石塚 満 教授

国内研究者と連携して独自の案を問う
マルチモーダルコンテンツ作成を誰にでも

石塚 満 教授 「日本発のWeb技術を世界標準に」―。創造情報学専攻の石塚教授は、国内研究者と連携して、次世代Webの国際標準として『Semantic Computing計画』の働きかけを強化している。コンピューターがWeb上のテキストデータの意味を理解できるようになると、人がWeb情報を見ていちいち判断しなくても、コンピューターが自動的に処理し、人の創造的な活動を支えてくれる。それを目指したプロジェクトだ。Webの世界をつくり上げた標準化団体『W3C』(World Wide Web Consortium)が次世代Webの標準化案『Semantic Web』を打ち出し、活動を展開しているが、欧米中心となっているこれとはひと味ちがったアプローチである。「次世代Webで日本独自の貢献を」と、石塚教授は広く世界に目を向けている。

『Semantic Computing計画』の意味

 Web情報は、W3Cが標準化したHTMLやXMLという約束事に従って記述するので、汎用のプラットフォームになった。ここへきて、Web情報は増加する一方で、キーワードによる検索だけでは、十分に活用するのがむずかしくなっている。次世代Webでは、Web情報をコンピューターが“表面的に読む”だけでなく、コンピューターが人と同じように“内容を理解できる”ようにすることで、大量情報の中から、その人が望んでいる有用情報を早く引き出すことを目指している。『Semantic Web』は、RDFという3つ組構造の表現方法により、Web情報のメタデータを主語、述語、目的語といった3つの要素で表現する。メタデータは、書籍ならその書名、著者、出版社、発行年とこれらに付随するデータのようなものである。

 一方の『Semantic Computing計画』はメタデータだけでなく、自然言語テキストが表す意味内容をCDLという概念記述言語で標準的に記述する。コンピューターで一挙にテキストの意味を理解させるのはむずかしいために、段階的に分けて取り組んでいる。あらかじめコンピューターにより70~80%程度を理解して記述を作成し、規定するのがむずかしいところは人が補っていく方法だ。当初は人手も要するが、最終的にはコンピューター自体で自動作成し、処理することを狙っている。

W3Cでのインキュベーショングループ活動のWebページ
W3Cでのインキュベーショングループ活動のWebページ
※画面をクリックすると、拡大画像をご覧になれます。

 Web上の大量情報の意味をコンピューターが理解できれば、コンピューターは人の創造的な活動をより積極的にサポートするツールになる。日本発の次世代Web『Semantic Computing計画』には、石塚教授や国内のNPO法人のほか、産業技術総合研究所の研究者らが協力して案をまとめ、ちょうど1年前の2006年10月、W3Cにインキュベーショングループを結成して、日本発の国際標準化案として提示し活動を開始した。「次世代Webに対し、日本の技術的な貢献がほとんどないというのではとても残念。国際標準化という舞台で日本のイニシアチブを発揮し、国際的な貢献を果たしていきたい」と、石塚教授はその目的を披露する。

人型エージェントが感情豊かにリポート

石塚 満 教授 他方、石塚教授&研究室が取り組んでいるのは、生命的エージェントとマルチモーダルシステムの研究である。これは1999年度から2004年度に未来開拓学術研究の大型研究として実施した。新形態のヒューマンインタフェースとして、人型の顔や姿、視覚、対話能力などを持ったエージェントが、身振り手振り、感情を交えて情報を伝えるシステムを追求中で、情報の世界と人のインタフェースを担う、まさに次世代ヒューマンインタフェースだ。だれもがHTMLでWebコンテンツを作成するように、マルチモーダル情報コンテンツを簡単に記述できるようにMPML(Multimodal Presentation Markup Language)という言語も揃えた。「バラバラな言語で書いていたのでは普及しない」ためで、XMLに準拠した標準的なフォーマットを用意したのだ。

 最近の国際的トップレベルの成果としては、テキストからの感情抽出がある。英語の文章を与えると、OCCモデル(22種の基本感情)に基づく感情抽出機構を開発している。好む/嫌悪、喜び/苦痛、嬉しい/嫉妬といったように、感情をより細やかに表現することで、アナウンサーのように感情豊かに語りかけることが可能である。「Webのニュース文を解析し、ハッピーなニュース、哀しいニュース、希望が持てるニュースとか、10くらいの感情に分類することもできている」。感情表現も含むマルチモーダル情報コンテンツの作成を容易にし、普及に向けての分岐点でもあるので、テキストデータから感情を自動抽出する研究に力を入れている。さらに、一歩踏み込んで、みんながつくる百科事典とも言われる『ウィキペディア』のデータを要約し、身振り手振りで説明してくれるシステムにもチャレンジしている。これはキーワードを入れると、要約文をまとめ、説明する次世代知識ベースのインタフェースの手がかりとなるものだ。

 石塚教授の主眼は、Webの中から情報を取り出し、それを知的活動に活用することにある。エージェント&マルチモーダル研究は、専門である人工知能、知識情報学の研究を背景に、知的かつ感性的なメディアを実現するという視点で展開しているものであり、次世代Web基盤の共同提案は、日本の情報技術の国際的地位を強く意識したものである。「研究は明確な目的を設定しながらも、ボトムアップに進むこと」―この持論を実践する姿をアピールしているように映った。

人型エージェントによるマルチモーダルコンテンツ
人型エージェントによるマルチモーダルコンテンツ
ISTyくん