東京大学バナー(中) 東大 アラムナイ 寄付のご案内
| ENGLISH | サイトマップ |
東京大学 大学院 情報理工学系研究科
交通アクセス・学内地図
訪問者別ご案内
受験・進学希望の方
在学生の方
留学生の方
(For International Students)
企業・一般の方
修了者の方
高校生の方
高校教員の方
教育と研究
研究科案内
各専攻・教員の紹介
 
コンピュータ科学
  数理情報学
  システム情報学
  電子情報学
  知能機械情報学
  創造情報学
センター
 
ソーシャルICT研究センター
  情報理工学国際センター
  情報理工学教育研究センター
教育プログラム等
 
ソーシャルICTグローバル・クリエイティブリーダー育成プログラム
  グローバル・クリエイティブリーダー 講義
  enPiT
  データサイエンティスト養成講座(領域知識創成教育研究プログラム)
  創造情報学連携講座
  他プログラム
学務関連
 
入学・進学案内 new !
  履修・学籍・諸手続案内
  東京大学学務システム(UTAS)
  学生支援制度
  研究生出願手続き
  科目等履修生案内
受賞
産学連携(R2P/IST等)
情報理工関係イベント
国際交流
(International Cooperation)
工学・情報理工学図書館
公募情報
内部者限定情報
 
ポータルサイト 
  ISTクラウド 
  研究倫理審査・広報 
  科学研究ガイドライン 
  情報倫理ガイドライン
緊急連絡
緊急連絡ページ
関連学部
工学部
理学部
Home > 教育と研究 > 研究科案内 > 専攻と講義科目 > システム情報学
教育と研究

システム情報学
専攻の目的教員と研究室Faculty and Labs講義
| 学位論文(修士) | 学位論文(博士)入試案内ショーケース

>> 学位論文(修士)へ戻る

多チャンネル音響信号の確率的モデル化に基づく音響情景分析に関する研究
(Audio scene analysis based on probabilistic modeling of multichannel audio signal)

樋口 卓哉

(指導教員:生田 幸士 教授,亀岡 弘和 客員准教授/システム情報 亀岡研究室

研究概要

本研究では,観測された音響信号から,いつ,何が,どこで鳴ったのかを分析するという,音響情景分析の問題を取り扱う.特に今後はスマートフォンやウェアラブルデバイスの普及により,限られた数のマイクロフォンによって様々な音が混合した状態で録音された音響信号が増えると考えられ,そのような音響信号を用いて音響情景分析を行い情報を抽出し,有効活用するのが本研究の最終目標である.複数の音源信号が混合された状態で録音された観測音響信号から音響情景分析を行うためには,複数の音源信号が混合された観測信号から元の音源信号を推定するという,ブラインド音源分離の問題を取り扱う必要がある.しかし観測信号を表現するような音源信号の組み合わせやそれらの混合のされ方は無数に存在するため,ブラインド音源分離の問題を解き分離音を得るためには,音源信号やその観測プロセスに何らかの仮定を置き解を限定する必要がある.ところがブラインド音源分離の問題に対する従来法では,限定的な環境下でしか成り立たない仮定を利用して解を限定していたため,立てた仮定の成り立たない実環境においては十分に動作しないものとなっていた. そこで実環境において動作する音源分離手法を構築し,音響情景分析を実現するためには,実環境においても成り立つ仮定によって十分に解を限定し,ブラインド音源分離の問題を解く必要がある.本研究では,音響イベント検出,残響除去,到来方向推定などの,ブラインド音源分離以外の音響情景分析の諸問題を解くことによって得られる情報が,ブラインド音源分離の問題を解くための手がかりになることに着目する.つまりブラインド音源分離以外の音響情景分析に関する諸問題を解くことによって得られる情報が,音響情景分析の諸問題の根底に存在するブラインド音源分離の問題を解くための手がかりとなることから,これらの諸問題は相互依存の関係にあると言えることに着目する.そして相互依存の関係にあるブラインド音源分離の問題とその他の音響情景分析に関する諸問題を統合的に解くというアプローチを取ることで,実環境においても成り立つ,音響情景に基づく仮定によってブラインド音源分離の問題における解を限定し,実環境における統合的な音響情景分析を実現することを試みる. まず,音響イベントや残響,到来方向などの音響情景に関するパラメータに基づいて,観測信号の生成プロセスについて確率的に定式化を行った.これにより,様々な音響情景に関するパラメータによって記述された確率的生成モデルに基づいて対数事後確率を最大化するパラメータを求めることは,音響情景分析に関する諸問題を統合的に解くことに相当する.当然目的関数である対数事後確率は様々なパラメータが関係しあった複雑な形となり,一般的に最適化が困難であるが,補助関数法の枠組みに基づき適切な補助関数の設計に成功した.これにより,反復アルゴリズムによって効率的に,目的関数を局所最大とするようなパラメータ集合を推定することが可能となった.そして評価実験により,音響情景分析の諸問題に対する提案法の有効性を実証した.

Abstract

We deal with problems of audio scene analysis. Audio scene analysis is to analyze when and where what sounds come from. In recent years, more and more people have their smart phones and wearable devices, and so audio signals recorded with a limited number of microphones have been increasing dramatically. The purpose of this thesis is to perform audio scene analysis and extract information from these audio signals. In order to perform audio scene analysis, we must deal with the problem of blind source separation (BSS) because a few source signals are often mixed and recorded in practical situations. Generally, the problem of BSS is an ill-posed problem and so we need to make assumptions in order to limit the possible solutions. However, the conventional methods for BSS make assumptions which are not always true in practical situations, and they do not work well enough in these situations. In this thesis, we focus on the fact that information of audio scene such as audio events, reverberation and directions of sources helps us to limit the possible solutions of BSS problem. We model multichannel observed signals probabilistically based on parameters which correspond to the audio scene such as audio events, reverberation and directions of sources. Parameter estimation based on the auxiliary function method allows us to solve the problems of audio scene analysis simultaneously in a unified manner. Experiments showed the effectiveness of the unified approach for audio scene analysis.
page top



大学院 情報理工学系研究科 お問い合せ先 東京大学