機能改善 イベント資料の投稿において、SlideShareやSpeakerDeckと同様に、Docswellの資料を埋め込みスライド表示できるように対応いたしました。資料の投稿機能は、資料URLを指定するだけで、URLから取得した情報を、適した形でconnpass上で表示・共有できる機能です

このエントリーをはてなブックマークに追加

Nov

14

第8回 強化学習アーキテクチャ勉強会

Organizing : 山川宏

Registration info

参加者

Free

FCFS
33/40

Description

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

  • 18:50 〜18:55 オープニング
  • 18:55〜19:45 講演:論文紹介 Trust Region Policy OptimizationとGeneralized Advantage Estimationについて(吉田岳人) 発表35分、質疑応答15分
  • 19:45〜20:35 講演:論文紹介 Generative Adversarial Imitation Learning(中田勇介) 発表35分、質疑応答15分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)

講演概要:

発表者1:吉田岳人

  • タイトル: Trust Region Policy OptimizationとGeneralized Advantage Estimationについて

  • アブストラクト: 連続行動空間に対応でき、オンポリシーの手法として高い安定性と(オンポリシーの中では)高いdata efficiencyを誇る手法であり、幅広く使われているTrust Region Policy Optimizationについて解説する。また、TRPOとよく同時使われるGAEについても解説する。非線形最適化手法である信頼領域法から始め最適化数学での立ち位置が分かるように解説する予定。同日の中田君によるGenerative Adeversarial Imitation Learningにも使われている手法のため接続がよくなるように分かりやすく説明出来たらと思います。

  • 参考文献:
    [1]Schulman, John, et al. "Trust region policy optimization." Proceedings of the 32nd International Conference on Machine Learning (ICML-15). 2015.http://proceedings.mlr.press/v37/schulman15.pdf
    [2]Schulman, John, et al. "High-dimensional continuous control using generalized advantage estimation." arXiv preprint arXiv:1506.02438 (2015).https://arxiv.org/pdf/1506.02438.pdf

発表者2:中田勇介

  • タイトル: Generative Adversarial Imitation Learning

  • アブストラクト: 模倣学習の目的は,特定のタスクの解法を知るエージェント(エキスパート)の意思決定データに基づく,エキスパートの方策の学習である.模倣学習の代表的なアプローチには,教師あり学習と逆強化学習がある.エキスパートが最小化するコストを推定する逆強化学習は,教師あり学習と比較して高い精度,少ないエキスパートのデータで学習できることが知られている.しかし,教師あり学習が試行錯誤を必要としない一方で,逆強化学習はコストを推定する過程で強化学習を複数回解くため多くの試行錯誤を要する.Generative Adversarial Imitation Learning(GAIL)は,逆強化学習によって得られる方策をコストを推定することなく直接学習する手法である.そのため,既存の逆強化学習と比較して少ない試行錯誤で学習でき,大規模状態行動空間にも適用可能である.今回の発表では,GAILのアルゴリズムが導出される過程を論文の流れに沿って説明する.特に重要な命題については証明を詳細に説明し,逆強化学習における理論的な貢献にも言及する.

  • 参考文献:
    [1]Ho, Jonathan, and Stefano Ermon. "Generative adversarial imitation learning." Advances in Neural Information Processing Systems. 2016. https://arxiv.org/abs/1606.03476

Feed

TaketoYoshida

TaketoYoshidaさんが資料をアップしました。

11/15/2017 08:26

Yusuke922

Yusuke922さんが資料をアップしました。

11/15/2017 07:44

Group

Ended

2017/11/14(Tue)

18:45
20:35

You cannot RSVP if you are already participating in another event at the same date.

Registration Period
2017/10/31(Tue) 18:45 〜
2017/11/14(Tue) 20:35

Location

φcafe

東京都文京区本郷5丁目24-5 角川本郷ビル6F

Organizer

Attendees(33)

Yusuke922

Yusuke922

第8回 強化学習アーキテクチャ勉強会に参加を申し込みました!

YoshiyaShibata

YoshiyaShibata

第8回 強化学習アーキテクチャ勉強会に参加を申し込みました!

Kosuke Miyoshi

Kosuke Miyoshi

第8回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

ShigeharuMukai

ShigeharuMukai

第8回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

KanSAKAMOTO

KanSAKAMOTO

第8回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

川村 正春

川村 正春

第8回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

i-shota

i-shota

第8回 強化学習アーキテクチャ勉強会に参加を申し込みました!

ikeyasu

ikeyasu

第8回 強化学習アーキテクチャ勉強会に参加を申し込みました!

生島高裕

生島高裕

第8回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

小川 雄太郎

小川 雄太郎

宜しくお願いします。

Attendees (33)

Canceled (5)