新研究領域「学習数理情報学」の確立へ
数理情報学専攻 山西健司 教授

独自の方法論「Latent Dynamics」を駆使
データの背後に潜む貴重な情報を引き出す

 「これまでのデータマイニングは、データの表面的な関係性を調べるのが主体でした。それだけでは、必ずしも価値ある知識は発見できません」。山西教授は、データの背後に潜んでいる情報に注目し、その変化やダイナミクスを捉えることで、いままで見えなかった貴重な情報を引き出そうとしている。そのカギと位置づけているのが「Latent Dynamics」(潜在的なダイナミックス)と呼ぶ方法論。数理情報学専攻が新たに打ち出した『学習数理情報学』という研究領域の中核に据え、この科学的な視点を通して、ネットワークの異常検知、情報犯罪の予兆、食の安全にかかわる情報など、現実の世界に起きている変化の兆しを捉えるのが目標である。「次世代データマイニングのキーワード」になると提唱するLatent Dynamicsの世界とはどんなものか-。

次世代データマイニングのキーワード

学習数理情報学における両輪
MDL原理に基づく学習
※ページ内の画面をクリックして拡大画像をご覧下さい

 まず、学習数理情報学とはどのような研究分野なのかを、山西教授に解き明かしてもらおう。機械学習は、大量のデータの中から構造的な知識を獲得し、将来に向けて活用することを指す。それを基礎理論(情報論的機械学習)と実践的応用(データマイニング)を両輪として進めるのが学習数理情報学である。この学問領域では、どのような複雑な現象でも、最終的に0、1のビット列に符号化して、どれだけの情報量が含まれているのかを評価する。その際、できるだけ短いビット列に符号化できるように現象を説明する最適な数理モデルを抽出(学習)する。これが情報論的学習理論のアプローチである。一方、データマイニングは機械学習の応用で、大量のデータの中から発見した価値ある知識をマーケティングやセキュリティ、リスク管理などに生かす手法である。

 山西教授はデータマイニングのエキスパートである。企業(NEC)時代は、そのリーダーとして機械学習の基礎研究とデータマイニングの事業化を手がけ、自ら育てた学習理論をデータマイニングに応用する研究を追求した。そして、「機械が学習するということは、データを最も圧縮するための表現を見つけること」という統一的な見方に基づいて、現象を最も短いビット列で適切に説明するモデルを選ぶという、MDL(Minimum Description Length=記述長最小原理)を中核にした学習の方法論を構築した。そこではMDLを応用するだけではなく、MDLでなぜ学習ができるのかを「学習のコンプレキシティ(複雑さ)」という視点から初めて解き明かし、学習の設計と解析の本質を担う「情報論的学習理論」を確立した。「とくに、モデルは時間とともに変わっていくので、MDLによってモデルの時間変化を検出していくことが重要なのです」。その観点から最近では「動的モデル選択」という方法を編み出す。

 データマイニングでは、上記の理論を総合的に活用して大量データから異常を検出し、環境が変化しても柔軟かつ迅速に発見するための「学習型異常検知理論」の体系化に成功した。これを用いると、不正侵入や未知のウイルスの検出、障害検出といったリスク管理を実現できる。また、時系列データから次に流行するトレンドの変化検知など、マーケティングに欠かせない重要な情報を得る手段になる。

Latent Dynamics とは

 こうした流れをみれば、山西教授が推進しようとしている研究のトレンドが見えてくる。すなわち、基礎(情報論的機械学習)と実践的応用(データマイニング)を両輪として進めるLatent Dynamicsの研究であり、それを中核とした学習数理情報学の確立である。従来のデータマイニングは、データの顕在的な関係性(何と何が一緒に買われるかといった表面的な関係)を抽出することがメインだったが、「データの背後にある潜在世界のほうにこそ面白い情報が眠っている。そこにはデータの表面には現れない、データを操作するものの意図や潜在的な関係性といったメタなレベルの情報が含まれています。しかも、こうした潜在情報は時間とともに変化しており、情報の構造的変化(Latent Dynamics)を抽出することによって、一段と深いデータマイニングを目指します」。学習数理情報学の真の目標がこの点にあるのが浮き彫りになってくる。

 セキュリティ分野への応用例を取り上げよう。ユーザーのPCやデータベースに入り込み、中においしそうな情報があると、外部に引き出そうとするハッカー攻撃。それも情報を引き出したあとの完了した時点ではなく、まさに引き出そうとしている瞬間(変化点)を、トラフィック量の変化などから捉えるところまで、これまでの研究で可能にしてきた。「何かおかしい、不審なアクセスが生じている」ことをキャッチできるまでになったわけで、さらにLatent Dynamicsのマイニングが可能になると、その予兆や原因までを分析できる可能性が出てくる。これによりハッカー攻撃を防ぐ道が拓かれる。

数理工学はビジネスと密着した学問

 さらに、こんな使い方もできる。企業が消費者にテレビや雑誌などで商品のプロモーションをかけたあと、その効果を調べる際、かつては、視聴率や売上高データなど直接、手に入るデータを使って評価していた。それがWebの発展で大きく変化し、ブログやソーシャルネットワークなど消費者が勝手に発言するクチコミ情報「CGM(Consumer Generated Media)」の中に重要なヒントが隠されていることに注目している。「このCGMの背後にあるLatent Dynamicsを解析することにより、商品トレンド、消費傾向、ライバル関係などの潜在的な動きを分析できます。これを上手に活用する企業が勝ち組になる可能性が出てきますね」

 2009年1月に教授に就任して1年と1ヵ月。「自らのDNAである数理工学の考え方をベースに、企業の現場で培った感性を学生に伝えたい」と山西教授。数理工学は数学を言葉として世の中をモデリングする学問。その対象は自然科学から社会・経済・サービス・スポーツ・芸術までに幅広い。数学を駆使して複雑な現象をモデリングし、現象を解き明かすことは、純粋数学の難問を解くのとはまったく異なる創造的な楽しさに満ち溢れている。その楽しさと有用性を訴えたいという。「数理工学はIT技術者に訴えるばかりでなく、CEOに向かって発信する技術。今後、解析の技術から戦略の技術になっていくものです。学生にはそれを将来、実業界で生かすことを目標に学んでほしい」とメッセージを贈る。

ISTyくん