東京大学バナー(中) 東大 アラムナイ 寄付のご案内
| ENGLISH | サイトマップ |
東京大学 大学院 情報理工学系研究科
交通アクセス・学内地図
訪問者別ご案内
受験・進学希望の方
在学生の方
留学生の方
(For International Students)
企業・一般の方
修了者の方
高校生の方
高校教員の方
教育と研究
研究科案内
各専攻・教員の紹介
 
コンピュータ科学
  数理情報学
  システム情報学
  電子情報学
  知能機械情報学
  創造情報学
センター
 
ソーシャルICT研究センター
  情報理工学国際センター
  情報理工学教育研究センター
教育プログラム等
 
ソーシャルICTグローバル・クリエイティブリーダー育成プログラム
  グローバル・クリエイティブリーダー 講義
  enPiT
  データサイエンティスト養成講座(領域知識創成教育研究プログラム)
  創造情報学連携講座
  他プログラム
学務関連
 
入学・進学案内 new !
  履修・学籍・諸手続案内
  東京大学学務システム(UTAS)
  学生支援制度
  研究生出願手続き
  科目等履修生案内
受賞
産学連携(R2P/IST等)
情報理工関係イベント
国際交流
(International Cooperation)
工学・情報理工学図書館
公募情報
内部者限定情報
 
ポータルサイト 
  ISTクラウド 
  研究倫理審査・広報 
  科学研究ガイドライン 
  情報倫理ガイドライン
緊急連絡
緊急連絡ページ
関連学部
工学部
理学部
Home > 教育と研究 > 研究科案内 > 専攻と講義科目 > 数理情報学
教育と研究

数理情報学 movie
専攻の目的Department Objective教員と研究室Faculty and Labs講義
学位論文(修士)学位論文(博士)入試案内Admissionsお知らせ
Technical Reports計数工学科数理情報工学コース

>> 学位論文(修士)へ戻る

双曲割引を持つTemporal-difference (TD) 学習の研究

関根 亮吾

(指導教員:増田 直紀准教授)
資料PDF(ryogosekine.pdf
研究概要

割引率が一般的な場合のTD学習の状態価値の変化
本研究はTD学習理論についての研究である。既存のTD学習では将来に得られる報酬を遅れ時間に対して指数的に割引いて考える事が一般的であったのに対し、本研究では、一定の条件を満たす一般的な割引率を持つ場合に対してTD学習を行うアルゴリズムを新たに提案した。
修論の感想

研究自体は楽しく進める事ができましたが、同時に、時間の制約の中でどれだけ成果を出せるかを求められる、社会の厳しさを知りました。でも、総じて有意義な2年間でした。
page top



大学院 情報理工学系研究科 お問い合せ先 東京大学