Description
はじめに
強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。
本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。
当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。
- Google Group: https://goo.gl/xznKlY (注:KlYのIは「L」の小文字です)
- Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
- Twitter: #rlarch 勉強会のハッシュタグを作りました.コメントや質問等にご活用ください.
スケジュール
- 18:50 〜18:55 オープニング
- 18:55〜19:45 研究紹介:R2D2: 深層強化学習の分散化・RNN利用の動向
※ 19:00にビル入り口が施錠されるため、19時以前にお越しください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)
講演概要:
発表者:奥村純(DeNA)
-
タイトル:R2D2: 深層強化学習の分散化・RNN利用の動向
-
アブストラクト:
Deep Q-Network(DQN)の登場以降、深層強化学習アルゴリズムは学習の安定化や効率化を目指して様々な改良がなされてきた。その流れの一部として、大規模分散化による軌跡サンプリングの効率化やRNNの活用が挙げられる。前者は大量のエージェントが多様な探索を行うことで、学習がよりロバストになり時間効率が改善する効果が見込まれる。また、後者については、より良く時系列から状態を推定できるようになるため、POMDP(部分観測MDP)のような課題に対応できる可能性が提起されている。本講演では最近ICLR2019にSubmitされた強化学習アルゴリズムであるR2D2(Recurrent Replay Distributed DQN)を紹介する。この論文では過去に提案された分散強化学習手法のApe-Xに上手くRNNを取り入れている他、報酬Clippingを工夫したり、従来のようにエピソード終端に対して不自然な設定を行わないなどの修正を行い、既存SotAであるApe-Xの3倍を超える成績改善を達成した。過去の分散化やRNN活用の流れにも触れながら、提案手法の要点について議論を行いたい。 -
参考文献:
[1]Recurrent Experience Replay in Distributed Reinforcement Learning, ICLR2019 submitted
https://openreview.net/forum?id=r1lyTjAqYX
[2]Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In International conference on machine learning, pp. 1928–1937, 2016.
https://arxiv.org/abs/1602.01783
[3]Matthew Hausknecht and Peter Stone. Deep recurrent Q-learning for partially observable MDPs. CoRR, abs/1507.06527, 7(1), 2015.
https://arxiv.org/abs/1507.06527
[4]Dan Horgan, John Quan, David Budden, Gabriel Barth-Maron, Matteo Hessel, Hado Van Hasselt, and David Silver. Distributed prioritized experience replay. arXiv preprint arXiv:1803.00933, 2018.
https://arxiv.org/abs/1803.00933
[5]Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. arXiv preprint arXiv:1802.01561, 2018.
https://arxiv.org/abs/1802.01561
Media View all Media
If you add event media, up to 3 items will be shown here.