混ざった音の中からほしい音だけ取り出す
システム情報学専攻 小野順貴 講師

音源分離を生かし『機械の耳』実現に近づく
音声認識をだれでも利用できる時代へつなぐ

小野順貴 講師 いろいろな雑音が混ざった中からほしい音声だけを取り出す。多彩な音楽信号から打楽器の音だけを取り除いて、ピアノやバイオリンの音を強調して聴かせる。小野講師が精力的に取り組んでいる、音源を分離する研究のエッセンスである。「大勢の人が集まり、ガヤガヤした雰囲気のパーティー会場でも、だれもが特定の人の声だけを聞き分けることができますね。人間の耳がもっている優れた能力で、カクテルパーティー効果と言われています。私はこんな能力をもった“機械の耳”をつくりたい」という。そして「雑音の中からほんとうにクリアな音を分離できたら、音声認識をだれもが使える時代になるでしょう」と展望を語る。周囲の雑音を気にすることなく、PCのマイクロフォンやICレコーダーで収録した話し言葉を文章としてすらすら打ち出すことができるようになったら、研究者だけでなく、多くの人に楽しみと利益をもたらすこと請け合いである。

結晶型マイクロフォンが無数の雑音を取り除く

wave 「収録音」
record.wav
wave 「従来法処理音」
past.wav
wave 「提案法処理音」
proposal.wav

 まず、3つの音を聞いていただこう。東京都内の駅で収録した環境音に、ターゲットとなる音声を加えたものである。従来の方法で処理した場合にも、雑音となっている周囲の人混みの音は減少しているが、低音の「ゴー……」という音はなかなか消えない。それに対し、小野講師が手がけた方法では、雑音がほとんど消えてクリアな音になっている。性能が高いのは、マイクロフォンに仕掛けがある。

 音を分離するのに使うのはマイクロフォン。問題はその数だそうだ。一般的には、2人の音声を分離するには2個、3人の音声を分離するには3個のマイクロフォンが必要とされている。ところが、例えば人混みの中にはたくさんの人がいる。しかし100人いるからといって100個のマイクロフォンを使うわけにもいかない。ほかにも、電車内で床や壁全体が振動して音を出していたり、室内で周囲の壁から残響がやってきたりと、現実の雑音環境には音がいくつあるか数えられないような場合も多いが、通常は使えるマイクロフォンの数は限られているので、対応を変える必要がある。

 小野講師が採った作戦は、マイクロフォンの配列を変えることだった。ポイントは『いろいろな方向から来る雑音の性質は似ている』と仮定した点だ。そして正方形、正四面体、直方体といった、結晶のような形の頂点にマイクロフォンを配置することで雑音を減らすことを考えた。周囲の様々な方向からやってくる雑音が同じ性質をもっているならば、マイクロフォンを対称に並べることで、捉えた雑音を大きく取り除くことができるという。冒頭に示した例は一辺5cmの正方形配置マイクロフォンで収録したものである。ちなみに長方形配置にはこの手法が使えるが、菱型配置にはなぜかダメらしい。数学では対称性を扱う「群論(グループセオリー)」と呼ばれる分野があり、これと関連しているとみて研究を進めている。

結晶型マイクロフォンアレイの配置
結晶型マイクロフォンアレイの配置

音源分離研究に新しい風を吹き込む

 逆に、マイクロフォンをたくさん使うためにはどうするか。これまでの音源分離の手法を使うには、複数のマイクロフォン信号の録音開始時間がきちんと揃っている必要があるため、通常は複数のマイクロフォンを1つの機器に接続して録音しなければならないことが制約の1つになっていた。しかし、ICレコーダー、マイクロフォン内蔵PC、携帯電話、カセットテレコなど、録音機能をもった機器は実はたくさんある。こうした独立した機器で録音した信号を関連づけ、音源分離や音源定位に生かすことができれば、マイクロフォンの数を増やすことはずっと容易になる。こうした、『分散型マイクロフォンアレイ』の研究も始めている。

 結晶型マイクロフォンアレイ、分散型マイクロフォンアレイ、どちらの場合にも、分離した音声を認識するには、分離の技術とは別に音声認識の技術が必要だ。この点で小野講師にとって強い味方がいる。共同研究者である音声認識のプロ・嵯峨山茂樹教授だ。音源分離した後の信号を使って音声認識研究が進められるだけでなく、音声認識機械にとって聞きやすい分離信号とはどんなものかといった、新しい研究にも結びつく。音源分離の研究に新しい風が吹く期待がある。

小野順貴 講師

 小野講師は大学時代、中南米の民族音楽を演奏するサークルに入っていた。しかし、楽譜がない曲が多く、演奏したい曲があったらプロの演奏の録音を何度も繰り返し聞き、自分で楽譜をつくるしかない。ところが、音楽経験に乏しかったために、何度聞いてもなかなか音がとれない。機械にこうしたことを自動的にやらせることはできないか、“機械の耳”をつくれないものかという小野講師のモチベーションの原点はこのころからあった。ちょうどそのころ、「インテリジェントな認識と行動のシステム科学」と題した学科紹介のゼミの中で、音や画像をコンピュータに学習させたり、認識させたりする研究に強い興味を覚え、計数工学科への進学を決めたという。

 もともとこうした動機もあって、小野講師は音楽信号を対象とした分離の研究も手がけている。通常のオーディオアンプで調節できるのは、音楽信号のボリュームや高音と低音のバランスだが、小野講師らが開発した新しい音源分離の技術を使うと、ピアノやバイオリンのような旋律楽器の音と打楽器の音を分離したり、バランスを変えたりすることができる。これには複数マイクロフォンを使うのとは別の原理が用いられている。どんな楽器が使われているか知らなくても、音楽信号のスペクトログラムの性質をうまく利用することにより、これを可能にしたのだ。

 音楽信号からボーカルの声だけを取り出したり、周囲の雑音の中で話した言葉を自動的に文章として取り出したりする機械の耳は、情報理工の音の魔術師たちが実現のカギを握っている…。


嵯峨山・小野研究室

ISTyくん