機械を人間のようにしゃべれるようにしたい
電子情報学専攻 広瀬啓吉 教授

非線形の音声の壁、新発想で突破目指す
イントネーションと音の融合で音声合成へ

広瀬啓吉 教授 インターネットのブロバイダーにTELしてサービス内容を聞くと、オペレーターの音声で答えてくれる。かなり流暢に聞こえるが、これは人間の声を細工したもの。近く到来する人間と機械の共生時代では、ロボットなどの機械に人間並みのアクセントやイントネーションで話す機能が備われば、機械の活躍の場はいっそう広がる。広瀬教授は、そうした時代に向けて、音声を介して人間と機械が“会話”できるようにしようと音声合成研究を展開している。主体は機械がアクセントなど韻律を自由に操れるようにすること。「7、8割のレベルまでこぎ着けています。でも、あとの20%、そこが難関でしてね」。この扉をどうこじ開けようかと戦略を練っている。

切り貼り音声合成を打破するために

 音声には2つの側面がある。「アイウエオ、カキクケコ…」という発音の“音”と、しゃべるときのアクセントやイントネーションなどの“韻律”。アイウエオ…などは書いた文字を音にして出すようなものだが、アクセントやイントネーションは音声らしさを引きだす重要な要素だ。音声合成研究はこの両面から進められているが、人間がいとも簡単にコミュニケーションの手段として使いこなしている韻律の仕組みを機械に取り込んで、聞いていて耳障りのしない、心地よい会話ができるようになれば、人間の真のパートナーとなりうる。広瀬教授はここにフォーカスしている。

 現在の音声合成の世界は―。「人間のしゃべった声を切り貼りして、つなぎ合わせているんです」。預金残高照会なら、そのときによく使う言葉を声として録音し、つなぎ合わせて会話風に仕上げているのだ。これはコンピューターを利用してDB化した言語資料をもとにした大量の音声コーパスを用いた手法で、現在の主流である。基本的には人間の声だから音質はいいが、イントネーションが足りず、どうしても違和感が生じがち。また、少し外れた言葉が出てきたら対応がむずかしくなり、その言葉の声を録音して追加しないといけなくなる不便さもある。しかし、この方法が主体的に使われているのは、音声がどのようにして生成され、知覚されるかという技術の本質に迫ることができていないからだ。

生成過程モデルに基づく韻律生成と音声合成システム
生成過程モデルに基づく韻律生成と音声合成システム
※画面をクリックして拡大画像をご覧下さい

 声帯を震わしてできた音が、口から音声として発せられるメカニズムはわかっている。しかし、人間の口や鼻などの構造は複雑かつ柔軟性があり、音が動的に微妙に変化している。変化するのはわかっているのだが、それがどのようにして起きるのかを捉えきれていないから、人間の音にならないのだ。それに近づけるために、音声の基本周波数を上げ下げしたり、スペクトルを加工したりといった操作を行うと、そのたびに音質が下がってしまうネックがある。音声分析のむずかしさ、不完全さがその理由だが、そのような操作をするよりは、単に切り貼りした人間の声のほうが音質がよいので、音声合成に使われているのだ。音声研究者のだれもが抱える悩みだそうだ。

 これでは音声合成は大きな壁に突き当たったままで、機械に人間並みの発話能力を与えるのは夢物語になりかねない。ここへきて、音声認識で使われている統計的な処理を加味した手法(隠れマルコフモデル)を適用することで、品質の高い音を確保できるようになった。韻律は音声による情報伝達と深く関わっているが、モデルに基づいた方法で、その柔軟な制御が実現されている。これと融合させることによって、人間の声に近づく突破口が見え始めた。とはいっても、一筋縄ではいかない。音声の持つ非線形性という性質だ。この壁をうまく回避することが必要で、「現在、アタックしている最中。もう少し待ってください」。手応えは十分と笑顔が答えた。

ユーザーの特徴、状況を捉えた音声応答システム
ユーザーの特徴、状況を捉えた音声応答システム

 機械が人間並みのイントネーション付きで話すようになると、たとえば、アニメの世界がガラリと変わる可能性がある。いまは声優がキャラクターの動きに合わせてセリフを話しているが、監督が思い描いたとおりの声を機械なら出せるようになるかもしれない。私たちに声のサプライズが届く期待もある。

英語の発音をチェック、修正するシステムも

広瀬啓吉 教授 広瀬研究室では、音声合成技術を用いた発音教育システムの研究も進めている。日本人の英語教育、外国人に対する日本語のアクセント教育に使う。『ここを直すと、もっと英語らしく聞こえますよ』と機械が自動的に発音の悪いところをチェックし、教えてくれる。「自分の声で違いがわかるので、とても効果的なのですが」と前置きしながら、ちょっと困った様子も。「発音のどこが悪いかを見つけるのがむずかしくて」。それを音声認識で解決しようと試みている。人間ならたとえ聞き違えても、イントネーションなどからそれらしいと判断できるが、機械は間違えたら違うものと判断する。イントネーションが重要な役割を演じるので、音声認識研究もこの側面から光を当てている。

日本語のアクセント型の発音教育システム
日本語のアクセント型の
発音教育システム

 広瀬教授の博士課程の研究は、レーザー光の変調。それがなぜ、音声情報処理研究に。「おもしろそうだから」。音声は人間の物理と深く関与している、だから、レーザーで積み上げた物理研究とまったく無縁ではないことがわかる。以来、30年以上にわたって、音声に関するオールラウンドの研究を展開している。「音声研究の黎明期から立ち会え、音声の本質に触ることができた幸せを実感している」と言う。この研究人生を振り返って若手研究者に次のようにアドバイスする。「その研究の本質は何か、どこにあるかを自分で探ること。選んだ分野で行われている研究動向を常にウオッチし、自分の考えを押していく」ことと。

 好奇心が進む道を拓いた広瀬教授には、まだ終着駅は来ない。機械に人間並みのイントネーションを与える夢多い仕事が待っている。

ISTyくん