[an error occurred while processing the directive]
[an error occurred while processing the directive]
[an error occurred while processing the directive]
Home > 教育と研究 > 研究科案内 > 専攻と講義科目 > 数理情報学
教育と研究

数理情報学 movie
専攻の目的Department Objective教員と研究室Faculty and Labs講義
学位論文(修士)学位論文(博士)入試案内Admissionsお知らせ
Technical Reports計数工学科数理情報工学コース

>> 学位論文(修士)へ戻る

双曲割引を持つTemporal-difference (TD) 学習の研究

関根 亮吾

(指導教員:増田 直紀准教授)
資料PDF(ryogosekine.pdf
研究概要

割引率が一般的な場合のTD学習の状態価値の変化
本研究はTD学習理論についての研究である。既存のTD学習では将来に得られる報酬を遅れ時間に対して指数的に割引いて考える事が一般的であったのに対し、本研究では、一定の条件を満たす一般的な割引率を持つ場合に対してTD学習を行うアルゴリズムを新たに提案した。
修論の感想

研究自体は楽しく進める事ができましたが、同時に、時間の制約の中でどれだけ成果を出せるかを求められる、社会の厳しさを知りました。でも、総じて有意義な2年間でした。
page top


[an error occurred while processing the directive]