お知らせ 【グループ管理者の皆さま】成長し続けるエンジニアを支援する「Forkwell」と「connpass」が連携し、connpass上でイベントを開催するグループを2020年3月末まで支援いたします。詳しくはこちら by Forkwell

このエントリーをはてなブックマークに追加

10月

15

第45回 強化学習アーキテクチャ勉強会

Organizing : 山川宏

Registration info

参加者

Free

FCFS
64/50

Description

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

会場の注意点

  • DEEPCORE様のご厚意により,2019年4月から会場がKERNEL HONGO(ユニゾ本郷四丁目ビル 3F)となります
  • 入室の際,参加者の把握のため,受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました(名刺をご提出いただく形でも構いません)
  • 正面口(本郷通り沿い)にロックがかかっている場合があります. 正面口がロックされている場合には,裏側の階段から3階に上がって頂く形になります.

ご協力の程,よろしくお願いいたします.

スケジュール

  • 19:15〜19:20 オープニング
  • 19:20〜20:10 タイトル:Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model (SLAC)

講演概要:

発表者:甲野 佑(DeNA)

  • タイトル:Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model (SLAC)

  • アブストラクト
    Reinforcement Learning and Control as Probabilistic Inference [2] により,グラフィカルモデルとして強化学習を定義していくことで,改めて自然な形で強化学習を確率的に表現することができた.確率制御と強化学習の統合を試みた重要な知見だと考えられる.
    本知見によって強化学習で扱われる状態の表現を観測からの確率的な潜在変数とみなすことができるため,POMDP (部分観測マルコフ決定過程)への自然な対応も可能となる.現在,深層強化学習で扱われている課題(テレビゲーム,ロボットの連続的な運動制御)のほとんどは本質的に POMDP 課題に属する.POMDP に対しては基本的には再帰的構造(RNN 系)や時間窓(※1)を使うことで場当たり的に対処している(※2).
    本発表で紹介する Stochastic Latent actor-critic (SLAC) [1] は確率制御と強化学習の統合を試みた知見 [2] での確率モデル上での定義と同様,状態の潜在空間を確率モデルとして定義している.状態をなんらかの潜在空間に写像してから強化学習するアプローチは複数存在する(変分オートエンコーダを利用する等)が,SLAC で扱うのは完全に確率的な潜在変数であり,そうすることでより少ないサンプルから効率的に学習が行えることが示されている.
    その他利点としては,強化学習途中で得られる報酬とは一般にスパースになりがちだが,状態遷移軌跡は定常的に大量に得られる.そのため少ない報酬データに対しての学習が効率化される,また確率的な状態遷移をうまく実際に得られたデータと組み合わせることでデータを水増しし,環境への試行錯誤回数を少なくするなどが考えられる.その代わり,現時点では end-to-end でオンラインな学習としては成立していない点もあり,再帰的な近似関数を用いた POMDP のアプローチと比べて劣る側面も存在する.
    状態の潜在空間を明示的に学習に利用するアプローチ自体は昔から存在するため,本発表では確率制御と強化学習の統合を試みた知見 [2] から,対象研究 [1] がそれらとどのような新規性と違いがあるかを解説できればと考えている.
    ※1 時間方向に m フレーム分の入力画像をまとめて関数近似器に入力する工夫を指す
    ※2 場当たり的とネガティブな表現を用いているが,それらが間違いっているわけではない

  • 参考文献
    [1]Lee, A. X., Nagabandi, A., Abbeel, P., "Levine, S., Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model", arXiv preprint arXiv:1907.00953 (2019).
    https://arxiv.org/abs/1907.00953
    [2]Sergey, L. "Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review", arXiv preprint arXiv:1805.00909 (2018).
    https://arxiv.org/abs/1805.00909

Media View all Media

If you add event media, up to 3 items will be shown here.

Feed

rl_architecture

rl_architecture published 第45回 強化学習アーキテクチャ勉強会.

10/05/2019 15:43

第45回 強化学習アーキテクチャ勉強会 has been published!

Group

Ended

2019/10/15(Tue)

19:15
20:30

開催日時が重複しているイベントに申し込んでいる場合、このイベントには申し込むことができません

Registration Period
2019/10/05(Sat) 15:43 〜
2019/10/15(Tue) 20:30

Location

KERNEL HONGO

東京都文京区本郷4-1-4 ユニゾ本郷四丁目ビル 3F

Organizer

Attendees(50)

gutchbar

gutchbar

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

Nori_S

Nori_S

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

Taku Yoshioka

Taku Yoshioka

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

kmdqcom

kmdqcom

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

Ayako_Shiraki

Ayako_Shiraki

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

triwave33

triwave33

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

bluejin55

bluejin55

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Tamaki Okui

Tamaki Okui

I joined 第45回 強化学習アーキテクチャ勉強会!

HayatoIwamizu

HayatoIwamizu

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

arima

arima

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Attendees (50)

Waitlist (14)

Lach

Lach

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

yotlearning

yotlearning

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

ken

ken

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

spectre_attract

spectre_attract

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Minami

Minami

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

msekine

msekine

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

ksyundo

ksyundo

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

iiou16

iiou16

第45回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

joyport

joyport

第45回 強化学習アーキテクチャ勉強会に参加を申し込みました!

RobertLee

RobertLee

I joined 第45回 強化学習アーキテクチャ勉強会!

Waitlist (14)

Canceled (19)