東京大学バナー(中) 東大 アラムナイ 寄付のご案内
| ENGLISH | サイトマップ |
東京大学 大学院 情報理工学系研究科
交通アクセス・学内地図
訪問者別ご案内
受験・進学希望の方
在学生の方
留学生の方
(For International Students)
企業・一般の方
修了者の方
高校生の方
高校教員の方
教育と研究
研究科案内
各専攻・教員の紹介
 
コンピュータ科学
  数理情報学
  システム情報学
  電子情報学
  知能機械情報学
  創造情報学
センター
 
ソーシャルICT研究センター
  情報理工学国際センター
  情報理工学教育研究センター
教育プログラム等
 
ソーシャルICTグローバル・クリエイティブリーダー育成プログラム
  グローバル・クリエイティブリーダー 講義
  enPiT
  データサイエンティスト養成講座(領域知識創成教育研究プログラム)
  創造情報学連携講座
  他プログラム
学務関連
 
入学・進学案内 new !
  履修・学籍・諸手続案内
  東京大学学務システム(UTAS)
  学生支援制度
  研究生出願手続き
  科目等履修生案内
受賞
産学連携(R2P/IST等)
情報理工関係イベント
国際交流
(International Cooperation)
工学・情報理工学図書館
公募情報
内部者限定情報
 
ポータルサイト 
  ISTクラウド 
  研究倫理審査・広報 
  科学研究ガイドライン 
  情報倫理ガイドライン
緊急連絡
緊急連絡ページ
関連学部
工学部
理学部
Home > 教育と研究 > 研究科案内 > 専攻と講義科目 > システム情報学
教育と研究

システム情報学
専攻の目的教員と研究室Faculty and Labs講義
| 学位論文(修士) | 学位論文(博士)入試案内ショーケース

>> 学位論文(修士)へ戻る

周波数領域音響符号化のためのスペクトル表現についての研究
(Spectral representation for frequency-domain audio coding)

杉浦 亮介

(指導教員:生田 幸士 教授,亀岡 弘和 客員准教授/システム情報 亀岡研究室

研究概要

近年, 音声符号化の技術の貢献により携帯電話やインターネット電話等(VoIP)を代表とする音声通信が世界中で幅広く用いられている. 音声通信における音質や遅延といった通信の質はこの符号化方式に大きく左右され, 特に携帯電話での音声通信のように低ビットレートで低遅延な条件が要求されるような場合においては, 快適なコミュニケーションを高い臨場感で実現するのは困難な課題である. 本研究はそのような音声通信を想定し, 低ビットレート且つ低遅延な条件下においても高音質を保ったまま信号を圧縮できるような音声音響符号化方式の作成を目標としたものである. そして本論文では, 従来の音声符号化方式の短所を補うことが期待されている周波数領域での符号化方式に着目し, その方式の課題とされていた低遅延での音質改善を達成するため提案を行う.  周波数領域での符号化においては, 周波数スペクトルのおおまかな形状を限られたパラメータにより表現したスペクトル包絡の情報が重要な役割を果たす. そこで本論文では二つの独立したアプローチにより, 符号化器の圧縮効率が向上するような包絡の表現法を導く.  まずは信号処理的アプローチとして, 圧縮対象のスペクトルの定性的な性質に着目し, 包絡の周波数解像度の伸縮されたモデルを提案する. 非負値疎行列による周波数伸縮の近似を線形予測分析に取り込むことにより, 低演算量で周波数解像度の伸縮された包絡を抽出することが可能となる.  次に情報論的アプローチとして, 圧縮方式の定量的な性質に着目し, 包絡を直接記述長に基づいて抽出する方法を提案する. 包絡のモデルを少し変えることにより, 記述長基準の包絡抽出を従来の線形予測分析と同形な問題に帰着させることができ, 簡便な手順により抽出を実現することができる.  評価実験により両アプローチの提案手法の有用性を検証し, 最後に二手法の統合を検討する. いずれの手法も単純なアルゴリズムに帰着することから直感的な統合が可能であり, その統合手法を用いることで上記二手法から更に改善する可能性があることを示す. (和文脚注:スペクトル包絡抽出のための統合手法の概念図. 単純なアルゴリズムで包絡の抽出を実現するため, 入力のスペクトルの周波数軸と振幅をそれぞれ非負値疎行列と累乗演算を用いて伸縮した後に線形予測分析を行っている. )

Abstract

Recently, speech communication tools such as mobile phone and Voice over Internet Protocol (VoIP) have been worldwide prospering owing to the techniques of speech and audio coding. The quality of the communications such as sound quality or delay highly depends on the design of the codec, and especially in mobile communications, which require low bit rate and low delay, it becomes a challenging issue to achieve high quality, the quality realizing comfortable interactions with sufficient presence. This study sets the goal at designing a high-quality speech and audio coding scheme for the mobile communications focusing on frequency-domain coding, the coding scheme which is expected to cover the weakness of the conventional speech coding but needs modifications to use in low-delay conditions. First, this thesis points out the importance of the representation of spectral envelopes, which is a parameterization of the shape of the frequency spectra, and than takes two independent approaches to improve the representation in order to enhance the compression efficiency of the frequency-domain coding. As an approach based on the ideas of signal processing, we consider the qualitative nature of the signal and introduce an envelope model with warped-frequency resolution. Simply integrating into the linear prediction frequency-warping operations approximated by sparse non-negative matrices, resolution-warped envelopes can be extracted from the input signals with low computational complexity.  As an approach based on the ideas of information theory, we next consider the quantitative properties of the compression method and introduce a criterion for the envelope extraction which related directly to the code length of the spectra. Slightly modifying the envelope model makes the envelope extraction with the alternative criterion algorithmically equivalent to the conventional linear prediction. Both the approaches are evaluated, discussed, and finally integrated to each other. For the sake of the simplicity of the approaches, a straightforward integration can be introduced, and it is evaluated by a preliminary test. The integrated model of signal-processing and information-theory approaches becomes the one which represent the spectral envelope with warped-frequency resolution on the basis of the criterion similar to the code length. (Caption:Conceptial diagram of the integrated method for extracting spectral envelopes. In order to realize the extraction with a simple algorithm, the method applies linear prediction after warping the frequency axis and the magnitude of the input spectra respectively by a non-negative sparse matrix and a powering operation. )
page top



大学院 情報理工学系研究科 お問い合せ先 東京大学