統計科学の世界に独自の予測理論を示す
数理情報学専攻 駒木文保 助教授

ベイズ理論に「情報幾何」の視点盛り込む
時系列、遺伝子データなどの解析に有効

 「統計」という言葉を聞いたとき、どのようなものをイメージするだろうか。一番イメージしやすいのは国勢調査などの社会調査かもしれない。これも大変重要な「統計」だが、統計的な方法は、ランダムネスの関係するあらゆる分野で、不可欠なものとして活躍している。遺伝子データ、進化、脳のモデル、医学データ、文字認識や音声認識などのパターン認識、地球環境などの時空間データ、経済などで現れる時系列データ、心理学、自然言語処理などがその例だ。このような広がりを踏まえて、最近では統計科学(Statistical Science)という呼び方も使われている。統計という学問のもつ意味が大きいのがわかる。

最尤推定法とベイズ法

駒木文保 助教授

 統計的な解析を行うために必要なのが統計モデルの構築。統計モデルとはどういうものか、コイン投げの例でみよう。ゆがんだコインを1回投げたとき、表の出る確率を p とする。このコインを10回投げる実験を行い、その結果をデータとして記録する。ゆがんだコインでは p の具体的な値はわからないため、データから推測しなければならない。ここでの p のように、値を指定すれば全体の確率が決まる未知の量をパラメータと呼ぶ。パラメータにより確率を指定する仕組みが統計モデルである。

 人間の知的情報処理を模倣するような複雑なシステムも、原理的にはコイン投げと同様の考え方を使った統計モデルとして構築できるというのだ。コイン投げの場合にはパラメータは p1つだが、一般の統計モデルは多数のパラメータを含む複雑なものになる。さまざまな分野で進化した統計モデルが構築され、利用されているのは言うまでもない。どのような統計モデルを考える場合でも、必ず重要になる基本的な概念がある。それが「尤度(ゆうど)」であり、「ベイズ法」である。モデルのパラメータの値を推定する方法として、尤度と呼ばれる量を最大化するパラメータの値を利用する最尤(さいゆう)法と、ベイズ法を利用した推定法が知られている。ベイズ法はあらかじめ見込み情報(事前分布)を設定しておき、新たな実験を追加してパラメータの分布のバラツキを小さくしていく方法だ。

 「遺伝子解析、パターン認識など、進んだ統計手法が利用されている分野がある一方で、問題を統計的に正しく定式化して、尤度やベイズ法などの基本的な考え方を利用するだけで、従来よりもずっとうまく扱える問題も世の中にはごろごろしています」と駒木助教授は言う。

10年、20年後も意味のある結果を残したい

 駒木助教授は、東大大学院工学系研究科の計数工学専攻(現在の数理情報学専攻)の修士課程で、情報幾何学の創始者である甘利俊一氏(東大名誉教授)の研究室に所属する。甘利研究室は、統計モデルを曲面のような幾何学的な対象(多様体)として捕らえ、その微分幾何学的な性質を調べることにより、情報や統計に切り込むという情報幾何学の研究を行い、最尤法の良さを幾何学的に証明するなど、鮮やかな成果を挙げていた。

駒木文保 助教授

 統計的モデリングの研究を始めたのは、総合研究大学院大学の博士課程のときだ。博士論文としてまとめた生体ホルモン時系列のモデリング研究でベイズ法を利用した。最尤法はパラメータの値を点で推定するのに対し、ベイズ法はパラメータ空間上の確率分布を扱うところに違いがあるが、ベイズ法は「不変性」がないと批判され、不変性をめぐる哲学的な論争が何十年も展開された。事前分布の取り方を変えると、結論が変わってしまうので「不変性がない」と指摘されたのである。

 この2つの手法にかかわってきた駒木助教授は、両者の矛盾を理解したいと考えた。「両方ともよい点を持っているのに、その関係を納得できるように説明するものは見当たらなかった」。そこで、最尤法とベイズ法の両方を「予測」という同じ土俵に乗せて性能の理論的な評価を与えれば、数学の問題に落ち着いて、両者の関係が自分なりに納得できるのではないかと考えたのだ。


最尤推定との関係
モデルと書いてある曲線あるいは曲面は、モデルを考える際に想定している確率分布の集合。
最尤法はパラメータの推定値を1つ与えるので、確率分布を1つ指定することになり、
モデルからはみ出す方向に修正項を加えてやることで予測を改良できることを示している

 これによって「ある意味でベイズ法が優れていることを示した。一方で、最尤法などの推定量を用いた予測を改良する一般的な方法を構成することができました」。これらをもとに、ベイズ法を情報幾何学の枠組みから追究する、現在につかながる研究へと向かう。幾何学は不変性を研究する学問。これを使うことで、見かけの違いで問題の本質を見失うことがなくなり、統計モデルの情報幾何学的な性質を見ることによって、実験をする前に、どのような事前確率を構成するのが良いかを明らかにした。この考えは「特定の分野というよりは、多くの量を同時に予測する必要がある場合に、特に有効になってくるでしょう。それは、数学的に改良の効果が大きくなるから」と駒木助教授。例えば、多くの選手がいる場合の競技記録データや多くの患者の医療データ、さらには空間データ、遺伝子データといった各種データの解析などで有効になるとみている。すでに、風速データの解析、パターン認識、陸上競技の記録の予測、保険請求額の予測などに関連した引用がなされている。

 駒木助教授の今後の方向が新しい統計手法の構築にあるのは、論を俟たない。1つの目標を無限個のパラメータをもつモデルを適切に扱うことに置いている。無限次元では、データが増えても、ベイズ法で得られる事後確率が真のパラメータの値に集中しないことがあるなど、むずかしい問題がたくさんある。無限次元の幾何も扱いやすい形で完成しているとは言えず、有限次元での結果を踏まえて、工夫をしながら研究を積み上げていくことにしている。10年後、20年後にも意味のある結果を得ることを目指し、普遍性と不変性を追究する、真摯な研究者魂を心に秘める学者だ。


数理第四研究室

ISTyくん