未知画像を自動認識し、その意味を複数キーワードで出力
知能機械情報学専攻の原田講師らが画像認識検索技術
世界最高認識性能と処理速度を実現、ロボットなどに応用

 画像を入力するだけで、それにふさわしい単語を高速かつ高精度に探し出す認識システムが登場した。今まで見たことのない画像が入力されても、画像と単語が関連付けられたデータセットから学習した画像認識システムにより、適切な複数の単語を高速で選び出す。逆に、膨大な単語が付与されていない画像情報の中から、単語を入力して画像を検索することも可能だ。開発したのは、知能機械情報学専攻の原田達也講師、大学院生の中山英樹さん、國吉康夫教授らのグループで、大津展之・前情報理工学系研究科COE特任教授(現産業技術総合研究所フェロー)と大学院生の松本理恵さんの協力を得た。原田講師は「インターネットから好きな静止画像や動画像を探したり、ロボットの画像認識などに応用できる」と話している。

 インターネットには膨大な画像があふれており、ほしい画像を効率的に検索するのはむずかしくなっている。現在使われている画像検索システムは、事前に人手で画像に説明文などの単語データを付け、画像と単語を直接対応付けすることによって探し出すのがほとんど。画像数が膨大になればなるほど、単語データの人手による付与作業は負担が大きくなるし、単語データが付いていない画像は選び出せない。実際には、単語データが付いていない画像が圧倒的に多いので、単語データを自動的に付与する技術は重要な課題になっている。

 原田講師らは、まず大量の画像と単語列がセットになったデータ群を用意した。そして、入力した画像がどういう画像なのか、あるいは、入力した単語列に関連した画像を出力できるようにするため、画像と単語列との関連性を学習するアルゴリズムを導入した。犬を例にすると、チワワからゴールデンリトリバーのように、大きさ、形、色などが違うので、このような画像の特徴だけでは、犬という単語に直接的に結びつけるのは困難。そこで、登録されている多くの犬の特徴と単語列の特徴から、犬とはこういう概念のものとシステムが学習できる仕掛けをつくったのがポイント。単語データの付いていない未知の犬の画像が入ってきたら、自ら学習した犬の抽象概念を用いて「これは犬に違いない」と自動認識し、出力できるようにした。

未知画像への単語割り付けの結果の一部
未知画像への単語割り付けの結果の一部
(入力画像は単語が割り付けられていないもので、
画像の下にはシステムが認識し、割り付けた単語を示している。
システムは画像にそれらしい上位5単語を割り付けるようにしている)

 一例を示すと、ここに「tiger」が写っている画像がある。人間だと、大多数の人が「tiger」とわかるに違いないが、システムでは「catかもしれない」、「tigerかもしれない」、「水がある」、「岩がある」、「森が見える」というように、認識結果を単語で出す。

 この認識精度は現在、最も高いとされている米国カリフォルニア大学サンディエゴ校とGoogleが開発している方法と比べて、23%向上させることが可能という。また、未知の画像に単語を付与する速さも、1万倍程度高速化できる見通し。認識性能は「従来は2割6分程度のバッターだったのが、いきなり3割2分バッターに成長したほど」と原田講師は喩える。ただし、まだほんの一部の画像を扱えるようになった段階であり、文字どおりインターネット上の膨大な多様な画像検索に適用できるようにするには、データセットの拡充がカギとし、この充実を図っていく。

 この画像認識技術は広範な応用が可能だ。実世界を認識するロボットなどの基盤技術となるほか、子どもの成長記録をデジカメで撮影した後、説明を付けずにPCに取り込んでも、PCが「かわいい」という概念を獲得できたら、「かわいい」と打ち込むだけで、かわいい子どもの写真を取り出せるようになる。今後は、具体的な応用も視野に入れて研究を推進する考えだ。

ISTyくん