フォーカス（中山） | focus | 教員紹介 | 東京大学大学院情報理工学系研究科

HOME
教員紹介
フォーカス（中山）

実世界と情報世界の橋渡し役に
創造情報学専攻　中山英樹（なかやま・ひでき）講師

中山英樹講師（撮影：近藤悦朗）

　「画像を見て、人は瞬時に多くの情報を処理して、内容を認識理解することができます。計算機は飛躍的に進歩していますが、こうした能力で、まだまだ人に遠く及びません」
　情報理工学の分野融合の中核として、新分野の開拓をめざす創造情報学専攻。「マシンパーセプション（機械認知）グループ」を標榜する中山英樹講師は、画像や動画など多様なマルチメディアデータを理解し、活用するための知能システムの研究をしている［図1］。

※ページ内の画面をクリックして拡大画像をご覧下さい

さまざまな対象を表現できるネットワーク構造に着目し、データマイニングの可能性を広げる

図1 中山研究室では、多様なマルチメディアセンサから得られるデータを柔軟に理解・活用する知能システムを研究している

「信号」と「意味」のギャップを埋める機械学習

　犬と猫の画像を見た時、人はどちらが犬でどちらが猫か、すぐに判断できるだろう。だが、もし色や明るさなどの物理信号が似ていると、機械は区別するのがむずかしい。
　この「信号」と「意味」の間のギャップ（セマンティックギャップ）をどう埋めるか。
　その方法の一つが「機械学習」だ。猫なら、シャム猫やペルシャ猫など様々な種類の猫の画像をたくさん教え、「猫とはこんなもの」と機械が理解できるようにして、未知の画像を見て、猫かどうかを認識できるようにするというもの。
　この技術を進め、中山講師らのグループは2013年、画像認識の国際コンペティション（ImageCLEF）の植物識別部門で、世界第1位を獲得した［写真1］。

※ページ内の画面をクリックして拡大画像をご覧下さい

写真1 ImageCLEF（2013年）の植物識別部門では、250種・2万5000枚以上の写真をコンピュータに学習させ、未知画像中の植物の種の特定の精度を競った。コンピュータが挑んだのは、無地の背景を前提として葉を識別するSheetAsBackground（写真の左2列）と、野外で撮影された葉、花、実、幹、全体像から種を識別するNaturalBackground（写真の右4列）の二つのタスク。結果は、SheetAsBackgroundで第3位、より難易度の高いNaturalBackgroundで第1位だった。この技術、将来的には、携帯カメラで撮影した植物画像の識別を行う図鑑アプリなどへの応用が期待されている。
（写真は http://www.imageclef.org/2013/plant より）

注目される「深層学習」

　現在、この分野で主流となり、世界中で激しい競争が続いているのが、深層学習（ディープラーニング）の考え方で、人工知能の新たな波として注目されている。
　火付け役となったのは、2012年の国際コンペティション（ILSVRC）だった。
　クラウドソーシングで構築された120万枚という大規模な画像データセットを使ったコンペで、カナダ・トロント大のグループが、従来は26～28パーセントが限界だったエラー率を10パーセントも下げ、16パーセントを達成。世界中に衝撃を与えた。
　その後も年々エラー率は下がり、研究の流れは一気に深層学習へと移っていった。
　深層学習は、その名の通り、人の脳の神経細胞が成すネットワークを模した、深く何層もある大規模な構造（ニューラルネットワーク）を備えた学習アルゴリズムだ。それ以前は、人が多くのパラメータを設定しできるだけ作り込んでいたが、深層学習では、できるだけ余計なことはせず、生のデータ自体に任せる［図2］。

※ページ内の画面をクリックして拡大画像をご覧下さい

図2 従来の方法論と深層学習の画像認識の考え方の違い。「パラメータを増やし、できるだけ作り込む」から「できるだけ余計なことをせずデータに任せる」へ、発想が転換している

　ニューラルネットワークのブームは1980年代にもあったが、その後下火となっていた。現在のブームの背景には、計算機が大幅に進歩したことや、大規模なデータセットの構築が実現したことなどがある。
　競争はとどまることを知らず、2015年にはアジアのグループがエラー率4パーセントを切る新記録を樹立。同じ課題を人が解いた場合のエラー率は5.1パーセントという推定もあり、すでに人をも凌駕している。

「柔よく剛を制す」

　ただ、中山講師は、すべてが深層学習で解決できるとは考えていない。
　まず、深層学習では、大量のデータと計算機の能力が大前提となる。
　しかし、データの価値は量だけで決まるわけではない。「ビッグデータという言葉ばかりが独り歩きするけれど、本当に重要な情報は、実はローカルで、小さなところにあるのではないか」という疑問だ。

学生たちには、「すでにある方法や道具に頼らず、自分自身の発想で、分野を先導できる真のエキスパートになってほしい」
（撮影：近藤悦朗）

　たとえば、製品の傷を見分ける技術。日本の職人たちが持つ高い技術は、データの量は少ないかもしれないが、きらりと光る価値があるだろう。
　さらに、そもそも深層学習を適用すべき問題なのか。
　「新幹線で東京から品川に行く人はいないでしょう。重要なのは最高速度がどのくらい出せるかだけじゃない。プラットホームまでのアクセス、列車の運行本数など、様々な条件がある。問題の全体構造を俯瞰的に捉えてボトルネックを見極めながら、もっと柔らかく考えて、最適な方法を選ぶ必要がある」
　「柔よく剛を制す」のことわざ通り、中山講師らは独自の方法で、シンプルで、高速高精度なネットワーク学習法を提案し、大規模な深層学習に対抗できる成果もあげている。
　大学院時代は音楽認識を研究し、博士課程修了後は民間企業の広告推薦やデータマイニングなどの現場で、最先端の仕事に携わった。その経験は、いまの研究の中で、常に一歩下がって、全体を俯瞰することに役に立っているという。
　だから、学生たちにも、ただ流行に追随するのでなく、独自の視点を持ってもらいたい。「すでにある方法や道具に頼らず、自分自身の発想で、分野を先導できる真のエキスパートになってほしい」

単なる画像認識を超えて

　中山講師がめざしているのは、実世界と情報世界の橋渡し役。
　「グラウンディング」と呼ばれる古くて新しい、いま最もホットな領域だ。
　「これまで情報世界は情報世界だけで閉じていた。その中でできることだけを考えてきてしまったのではないか。自分自身への反省も込めて、そう思うんです」
　簡単な例をあげれば、検索エンジンに合うようにキーワードを設定するなどで、実世界の情報を既存の情報システムにいかに適合させるかに悩んできた。
　「でも、これからは、一方通行ではなく、情報世界と実世界を双方向で結び、間に人を挟みながら、そのループを回していくことが重要になってくる」
　そこで、画像などのマルチメディアデータが果たす役割は非常に大きいと考える。
　「百聞は一見にしかず。画像が本来持っている豊かな情報をキーワードで切り取ったりせず、そのメリットを十分に生かしていくことで、新しいものが見えてくるはず」
　画像を理解し、利用する技術も、ようやく追いついてきた。
　情報世界から実世界に飛び出して何ができるか。まだまだ発展途上で、課題は山積みだが、だからこそ、チャレンジングで、多くのチャンスが眠っている。
　「画像認識は生物が長い進化の歴史の中で獲得してきた能力。複雑で深淵で、エンジニアリングとしても、サイエンスとしても、非常に奥深く、魅力的な対象で、画像認識を研究することは、人間を知ることにつながるのです」
（2016年3月／取材・構成：五十嵐道子）

中山英樹研究室のホームページ