東京大学バナー(中) 東大 アラムナイ 寄付のご案内
| ENGLISH | サイトマップ |
東京大学 大学院 情報理工学系研究科
交通アクセス・学内地図
訪問者別ご案内
受験・進学希望の方
在学生の方
留学生の方
(For International Students)
企業・一般の方
修了者の方
高校生の方
高校教員の方
教育と研究
研究科案内
各専攻・教員の紹介
 
コンピュータ科学
  数理情報学
  システム情報学
  電子情報学
  知能機械情報学
  創造情報学
センター
 
ソーシャルICT研究センター
  情報理工学国際センター
  情報理工学教育研究センター
教育プログラム等
 
ソーシャルICTグローバル・クリエイティブリーダー育成プログラム
  グローバル・クリエイティブリーダー 講義
  enPiT
  データサイエンティスト養成講座(領域知識創成教育研究プログラム)
  創造情報学連携講座
  他プログラム
学務関連
 
入学・進学案内 new !
  履修・学籍・諸手続案内
  東京大学学務システム(UTAS)
  学生支援制度
  研究生出願手続き
  科目等履修生案内
受賞
産学連携(R2P/IST等)
情報理工関係イベント
国際交流
(International Cooperation)
工学・情報理工学図書館
公募情報
内部者限定情報
 
ポータルサイト 
  ISTクラウド 
  研究倫理審査・広報 
  科学研究ガイドライン 
  情報倫理ガイドライン
緊急連絡
緊急連絡ページ
関連学部
工学部
理学部
Home > 教育と研究 > 研究科案内 > 専攻と講義科目 > システム情報学
教育と研究

システム情報学
専攻の目的教員と研究室Faculty and Labs講義
| 学位論文(修士) | 学位論文(博士)入試案内ショーケース

>> 学位論文(修士)へ戻る

2次元LRパーサによる自動採譜の研究
(Automatic Music Transcription Using 2-Dimensional LR Parser)

高宗 典玄

(指導教員:原 辰次 教授,亀岡 弘和 客員准教授/システム情報 亀岡研究室

研究概要

 本論文では,音楽音響信号処理の分野において非常に重要な,音楽音響信号からの自動採譜を目指す.自動採譜は音楽音響信号から自動でその楽譜を推定する問題であり,大きく分けて,音響信号からどの楽器がいつどの高さの音を鳴らしたかを推定する多重音解析と,多重音解析で得られた結果から実際の楽譜を推定するリズム解析の2つがある. 本研究では,まず,後者のリズム解析に焦点をあてる.リズムとテンポの不確定性があるこの問題に対し,それぞれの生成過程を考え,統合的に解くことによりその解決を試みる.ここで,リズムの生成モデルとして2次元PCFGを用い,その解析アルゴリズムとして2次元LRパーサを提案する.実際に人間が演奏したいくつかのMIDI信号に対し採譜実験を行い,従来法を上回る結果が得られた. 次に,多重音解析に焦点をあて,自動採譜における多重音解析には識別モデルが有用であると考え,深層学習を多重音解析に適用することを考える.計算時間が問題となる深層学習に対し,補助関数法による新たな学習アルゴリズムを提案する.音楽音響信号からの多重音解析問題に適用したときの比較実験により,収束速度の点で従来法を上回り得る結果が得られた. 最後に,リズム解析と多重音解析を統合的に解くことにより,音楽音響信号からの自動採譜アルゴリズムを提案する.そして,音楽音響信号からの採譜実験を行い,その結果について議論する.

Abstract

The goal of this study is to establish automatic music transcription system from acoustic signals, which is one of critical importance in the field of music information processing.Automatic music transcription refer to the process of automatically converting an audio signal into a music score. Automatic music transcription problems are roughly divided into the two subtasks: multi-pitch analysis and rhythm analysis. Multi-pitch analysis is the problem that estimates multiple fundamental frequency, onset time and offset time of each note from an audio signal, and rhythm analysis is the problem that estimates note values and tempo from retrieved information by multi-pitch analysis. First, we focus on the latter problem; rhythm analysis of polyphonic music, in a situation where the pitch, the onset time and the offset time of each note are given. The length of time that a note is played depends on the length of time of the note in music score and tempo in playing the note, thus there is no unique separation of note values and tempo curve from music performance. Then, we develop generative probability models about music score and tempo curve, and simultaneously estimate the music score and tempo curve through probabilistic inversion. We apply 2-dimensional probabilistic context free grammar to the generative models about music score and propose 2-dimensional LR parser as parsing algorithm for this model. Through an experiment on rhythm analysis from MIDI signals of human performance, we confirmed that the proposal algorithm outperformed the conventional algorithm. Next, we focus on multi-pitch analysis. Multi-pitch analysis for automatic music transcription is considered multi-label classification. Therefore, we apply deep learning approaches to multi-pitch analysis. We propose deriving a new training algorithm based on an auxiliary function approach for deep learning approaches. Through an experiment on parameter training for multi-pitch analysis from acoustic music signals, we confirmed that the proposed algorithm outperformed the conventional algorithm in terms of the convergence speed. Finally, we establish automatic music transcription algorithm from acoustic signals which integrates the above-mentioned multi-pitch analysis and rhythm analysis. We show the result obtained with the proposed method and consider this result.
page top



大学院 情報理工学系研究科 お問い合せ先 東京大学