Sep
5
第4回 強化学習アーキテクチャ勉強会
Organizing : 山川宏
Registration info |
参加者 Free
FCFS
|
---|
Description
はじめに
強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。
本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。
当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。
今回は、千葉大学の石川さんと中田さんに逆強化学習についてご講演いただく予定です。興味の有る方は奮ってご参加下さい。
スケジュール
- 18:50 〜18:55 オープニング
- 18:55〜19:45 講演:逆強化学習イントロダクション~ベイズによる統一的な見方~(石川翔太) 発表35分、質疑応答15分
- 19:35〜20:25 講演:逆強化学習の近年の動向~MaxEntIRLの発展形を中心に~(中田勇介) 発表35分、質疑応答15分
- 20:25〜21:30 フリーディスカッション
※ 19:00にビル入り口が施錠されるため、19時以前に起こしください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)
講演概要:
発表者1:石川翔太
-
タイトル:逆強化学習イントロダクション~ベイズによる統一的な見方~
-
アブストラクト:
強化学習適用に向けたの課題の一つに,報酬設計が挙げられる.この課題のアプローチとして,近年,逆強化学習が注目されている.逆強化学習によれば,適用タスクのエキスパートの軌跡を所与とすることにより,その軌跡を再現する方策を学習可能な報酬を推定できる.本発表では,逆強化学習のイントロダクションとして,逆強化学習の応用例と原理について説明する.特に,逆強化学習の原理については,ベイズの「事後確率最大化(Maximum a Posteriori)」で統一的な見方ができることを示す.
-
参考文献:
Ng, A. Y., & Russell, S. (2000). Algorithms for inverse reinforcement learning. In Proceedings of the Seventeenth International Conference on Machine Learning (Vol. 0, pp. 663–670).
Abbeel, P., & Ng, A. Y. (2004). Apprenticeship learning via inverse reinforcement learning. In Proceedings of the 21st International Conference on Machine Learning (ICML) (pp. 1–8).
Ratliff, N. D., Bagnell, J. A., & Zinkevich, M. a. (2006). Maximum margin planning. In International conference on Machine learning - ICML ’06 (pp. 729–736).
Ramachandran, D., & Amir, E. (2007). Bayesian inverse reinforcement learning. In IJCAI International Joint Conference on Artificial Intelligence (pp. 2586–2591).
Neu, G., & Szepesvári, C. (2007). Apprenticeship Learning using Inverse Reinforcement Learning and Gradient Methods. In Twenty-Third Conference on Uncertainty in Artificial Intelligence (pp. 295–302).
Syed, U., & Schapire, R. E. (2008). A Game-Theoretic Approach to Apprenticeship Learning. In Advances in Neural Information Processing Systems 20 (Vol. 20, pp. 1–8).
Ziebart, B. D., Maas, A., Bagnell, J. A., & Dey, A. K. (2008). Maximum Entropy Inverse Reinforcement Learning. In AAAI Conference on Artificial Intelligence (pp. 1433–1438).
Choi, J., & Kim, K. E. (2011). MAP Inference for Bayesian Inverse Reinforcement Learning. In Nips (pp. 1–9).
発表者2:中田勇介
-
タイトル:逆強化学習の近年の動向~MaxEntIRLの発展形を中心に~
-
アブストラクト:
本発表では最大エントロピーの原理を逆強化学習に適用したMaxEnt IRLと,その発展系(RelEnt IRL, MaxEntDeep IRL, Guided Cost Learning)について説明する.MaxEnt IRLについては,最大エントロピーの原理を逆強化学習問題に導入した目的,導入のメリットについて直感的な説明を試みる.MaxEnt IRLの発展系については,各手法を目的関数,パラメータの更新式の違いに注目し説明する.
-
参考文献:
Ziebart, B. D., Maas, A., Bagnell, J. A., & Dey, A. K. (2008). Maximum Entropy Inverse Reinforcement Learning. In AAAI Conference on Artificial Intelligence (pp. 1433–1438).
Boularias, A., Kober, J., Peters, J., & A. Boularias, J. K. (2011). Relative Entropy Inverse Reinforcement Learning. In Icaps (Vol. 15, pp. 20–27).
Wulfmeier, M., Ondruska, P., & Posner, I. (2015). Maximum Entropy Deep Inverse Reinforcement Learning. Retrieved from http://arxiv.org/abs/1507.04888
Finn, C., Levine, S., & Abbeel, P. (2016). Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization (Vol. 48). https://doi.org/1603.00448v3