数学に“新たなブレークスルー”を起こしたい
数理情報学専攻 竹村彰通 教授

『計算代数統計』手法を使った統計モデルを構築
若手研究者の育成へ、共同で研究所設立の夢も

竹村彰通 教授

 医薬品が発売されるまでに、その医薬品が病気に対してほんとうに効いているかどうかを臨床試験で確かめる。効く確率が大きいこと、より正確には効かない確率が小さいことを確認するのを統計的検定というが、竹村教授はこれまでの主流である漸近理論とは異なる、『計算代数統計』と呼ぶ手法を使って、統計学に新たなブレークスルーを起こそうとしている。現代数学の潮流の1つとして注目されているグレブナー基底の理論を活用したものだ。グレブナー基底の理論は、いまのところ限られた統計モデルにしか適用されていないが、この理論を軸とした純粋数学と、医学、薬学、生物学、物理学、環境をはじめとした多様な先端科学技術との融合が進めば、産業社会の発展に大きく貢献する可能性がある。その担い手となる人材育成に向けて、竹村教授は代数学者、計算機科学者、統計学者らで構成する新しい研究構想を打ち出した。「数学という学問を、いままで以上に社会に役立つものにしたい」という思いからだ。

数学と科学技術の調和で産業社会の難問解決へ

 竹村教授が現在、最も力点を置いている研究は計算代数統計である。連続(解析)的というよりは、離散(代数)的な数学で、グレブナー基底の理論に基づく計算代数の方法を統計に応用しようというものだ。統計学は理論から計算へとシフトし、実際に計算して数値的な解を求める方向に流れている。計算機の発達によって実際に計算できる問題の規模が大幅に拡大したこと、統計の対象となるデータがデジタルデータとして大量に入手できるようになったことが大きい。しかし、統計学では伝統的に漸近理論(あるいは大標本理論)と呼ばれる近似理論が主流である。漸近理論は標本(サンプル)の大きさが無限に大きいときに汎用的な近似式を与える、きわめて有用な手法だからだ。

 しかし、標本の数が小さいときや、データ量自体が多くてもデータの次元が高いときには、漸近理論では近似の精度が悪くなる難点がある。特に、データが離散的で標本が小さいときは、離散性を考慮しないと正しい計算ができない。この観点から、グレブナー基底などの代数的な手法がここ10年で大きく進展した。竹村教授は、クロス表に分類した分割表から、条件付き検定の有意確率を推定する研究などで優れた業績を挙げている。この分割表に関しては、一般の階層モデルのマルコフ基底の構造を探求している。また、集団遺伝学の基礎原則として知られるハーディ・ワインベルクの法則が、ある集団から得られた遺伝子多型データに対して成立しているかどうかの検定の際に、従来よりも大幅に計算効率を向上できることを確認している。

3次元の分割表のマルコフ基底の1つの要素の立体図 漸近理論による近似(滑らかな線)と代数統計の手法によって得られる正確な分布(ヒストグラム)の違いを示す図
3次元の分割表のマルコフ基底の
1つの要素の立体図

(マルコフ基底はこのような要素の集合を指す。
4次元以上は図に表せない。
実際にはより高い次元と考えられる)
漸近理論による近似(滑らかな線)と
代数統計の手法によって得られる
正確な分布(ヒストグラム)の違いを示す図

(漸近理論による近似が悪い場合に、
代数統計の手法によって正確な分布が
得られる)

 グレブナー基底の探究の歴史をひも解くと、「これまでに3回のブレークスルーがあった」と竹村教授は分析する。1960年代に計算アルゴリズムによって産声を上げたグレブナー基底は、1980年代後半の代数計算ソフトウェアの開発で最初のブレークスルーが起きた。1998年ごろからの第3のブレークスルーでは、計算代数統計と呼ばれる斬新な分野を誕生させた。統計的モデルの代数的側面に着目することによって、グレブナー基底などの代数的手法を統計的モデルの解析に用いることが可能になり、今日に至っている。結果を近似ではなく、正確な値として得られるのが魅力だ。ただ、統計的モデルが小さいときは、グレブナー基底の計算はしやすいが、現実の世界で遭遇する統計的問題はモデルが大規模である。それらのグレブナー基底が計算できれば、劇的に活用範囲が広がる期待があるが、代数的な構造が十分に解明されていないために、計算量の問題が応用の広がりを阻んでいる。

国際競争に勝ち抜く研究体制づくり

 そのバリアを払拭するため、竹村教授は、大阪大学大学院情報科学研究科の日比孝之教授らと共同で、5年計画のCREST研究『現代の産業社会とグレブナー基底の調和』を開始した。阪大、東大、立教大など10大学・センターの代数学者、計算機科学者、統計学者が参画し、日本からグレブナー基底についての第4のブレークスルーを世界に発信し、国際競争に打ち勝つことをフラッグシップとした大構想である。研究グループを理論系(トーリック・イデアルの理論)、計算系(計算機代数システム)、応用系(計算代数統計)の3つにわけ、グレブナー基底の理論と計算機代数ソフトウェアの発展を、両者の相互関係を深化させながら強力に推進し、産業社会への貢献を目指している。応用系が竹村教授らの担当で、ここではこれまでに展開してきたマルコフ基底研究を踏襲し、代数的な理論からマルコフ基底の候補を絞り込み、その後、計算機によってマルコフ基底を決定する研究を進めることにしている。この研究が計算の効率化を促進し、冒頭に触れた医薬品の臨床試験で重要な検定法の実用化などにつながると位置づけている。

竹村彰通 教授 CREST研究による全体の成果としては、代数統計パッケージと呼ぶ商用パッケージへの基本技術の提供、学術的な質問に答えるコンサルタント業務、社会的貢献を図るオープン化などを進める考えだ。その先に描いているのが、大学と企業が連携し、理論・計算・応用の研究者が集う研究所である。日本では、総合研究大学院大学を除き、大学には統計学科や統計学専攻が設けられていない。統計学を学ぶ研究者は、数学科、工学部、経済学部、教育学部、医学部などに所属している。竹村教授も東大の経済学部出身である。統計学が手法を提供する学問という性格から、研究者は多くの学部に広がっているが、統計学は多彩な学問、社会と密接に絡み合い、問題解決を託されている。それを担う若手数学者育成のための場として、統計を含む応用数学の研究所構想を打ち出した。独創的な成果を顕した米国Rutgers大学のDIMACS研究所の日本版といえる。

 「数学が科学技術と産業社会に広く貢献するという夢を実現するのは、30年、50年の大計でしょう。5年のCREST研究期間内に、一部でもそのレールを敷きたい」。この大局的見地からこれまでに蓄積した『知』を投じる。それが研究者としての使命と熱っぽく語った。

ISTyくん