Description
はじめに
強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。
本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。
当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。
- Google Group: https://goo.gl/xznKlY (注:KlYのIは「L」の小文字です)
- Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
- Twitter: #rlarch 勉強会のハッシュタグを作りました.コメントや質問等にご活用ください.
会場の注意点:
- DEEPCORE様のご厚意により,2019年4月から会場がKERNEL HONGO(ユニゾ本郷四丁目ビル 3F)となります.
- 入室の際,参加者の把握のため,受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました(名刺をご提出いただく形でも構いません).
- 19:00頃になると正面口(本郷通り沿い)にロックがかかりますので,もし19:00をすぎる場合には,裏側の階段から3階に上がって頂く形になります.
ご協力の程,よろしくお願いいたします.
スケジュール
- 19:15〜19:20 オープニング
- 19:20〜20:10 論文紹介 NoRML: No-Reward Meta Learning
講演概要:
発表者:中田勇介(千葉大学)
-
タイトル:論文紹介 NoRML: No-Reward Meta Learning
-
アブストラクト
強化学習は多くの試行錯誤を要するためシミュレータ上で学習を行うことが多い.しかし,シミュレータと実環境のダイナミクスは必ずしも等しくないため,あるタスクをシミュレータ上で遂行できる方策が,同じタスクを実環境で遂行できるとは限らない. 実環境で使用可能な方策を得る方法として,シミュレータで多くの試行錯誤を通して学習した方策を,実環境での少量の試行錯誤を通して適応させる方法が考えられる.具体的には,実環境における報酬の獲得量を最大化するよう強化学習を用いて方策を更新すれば良い.しかし,実環境で得られる観測から報酬を与えることが困難なタスクが多く存在する.例えば,画像入力に基づいて物体を持ち上げるタスクを考える.この時,シミュレータ上では,対象とする物体の座標が簡単に得られるため,物体の座標に基づいて報酬を与えることが出来る.しかし,画像入力しか得られない実環境においては適切に報酬を与えることが出来ず,方策を適応させることが出来ない.本発表で紹介するNoRMLは,強化学習で方策を適応させる時に報酬を要しないMeta Learning手法を提案した.実験では,既存のMeta Learning手法であるMAML[2]と比較して優れた性能を示すことが確認されている. -
参考文献
[1] Yang, Y., Caluwaerts, K., Iscen, A., Tan, J., & Finn, C. (2019). NoRML: No-Reward Meta Learning. CoRR, abs/1903.01063.
[2] Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.