東京大学大学院情報理工学系研究科

孤立単語の認識結果

話者の身長を半分から倍にまで変化させて作成した変換音声を認識させている。
緑は従来の技術の性能。世界一の巨人と小人の音声はいっさい認識できなくなる。
青は、個々の身長に応じて（従来技術の）音響モデルを17通り準備した場合の性能。この場合は巨人でも小人でも認識できて当たり前。赤は提案手法。構造音響モデルは普通の話者から構築されているが、巨人でも小人でもへっちゃら