お知らせ 【グループ管理者の皆さま】成長し続けるエンジニアを支援する「Forkwell」と「connpass」が連携し、connpass上でイベントを開催するグループを2020年3月末まで支援いたします。詳しくはこちら by Forkwell

このエントリーをはてなブックマークに追加

10月

30

第27回 強化学習アーキテクチャ勉強会

Organizing : 山川宏

Registration info

参加者

Free

FCFS
57/45

Description

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

  • 18:50 〜18:55 オープニング
  • 18:55〜19:45 研究紹介:R2D2: 深層強化学習の分散化・RNN利用の動向

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)

講演概要:

発表者:奥村純(DeNA)

  • タイトル:R2D2: 深層強化学習の分散化・RNN利用の動向

  • アブストラクト:
    Deep Q-Network(DQN)の登場以降、深層強化学習アルゴリズムは学習の安定化や効率化を目指して様々な改良がなされてきた。その流れの一部として、大規模分散化による軌跡サンプリングの効率化やRNNの活用が挙げられる。前者は大量のエージェントが多様な探索を行うことで、学習がよりロバストになり時間効率が改善する効果が見込まれる。また、後者については、より良く時系列から状態を推定できるようになるため、POMDP(部分観測MDP)のような課題に対応できる可能性が提起されている。本講演では最近ICLR2019にSubmitされた強化学習アルゴリズムであるR2D2(Recurrent Replay Distributed DQN)を紹介する。この論文では過去に提案された分散強化学習手法のApe-Xに上手くRNNを取り入れている他、報酬Clippingを工夫したり、従来のようにエピソード終端に対して不自然な設定を行わないなどの修正を行い、既存SotAであるApe-Xの3倍を超える成績改善を達成した。過去の分散化やRNN活用の流れにも触れながら、提案手法の要点について議論を行いたい。

  • 参考文献:
    [1]Recurrent Experience Replay in Distributed Reinforcement Learning, ICLR2019 submitted
    https://openreview.net/forum?id=r1lyTjAqYX
    [2]Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In International conference on machine learning, pp. 1928–1937, 2016.
    https://arxiv.org/abs/1602.01783
    [3]Matthew Hausknecht and Peter Stone. Deep recurrent Q-learning for partially observable MDPs. CoRR, abs/1507.06527, 7(1), 2015.
    https://arxiv.org/abs/1507.06527
    [4]Dan Horgan, John Quan, David Budden, Gabriel Barth-Maron, Matteo Hessel, Hado Van Hasselt, and David Silver. Distributed prioritized experience replay. arXiv preprint arXiv:1803.00933, 2018.
    https://arxiv.org/abs/1803.00933
    [5]Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Volodymir Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. arXiv preprint arXiv:1802.01561, 2018.
    https://arxiv.org/abs/1802.01561

Media View all Media

If you add event media, up to 3 items will be shown here.

Feed

rl_architecture

rl_architecture published 第27回 強化学習アーキテクチャ勉強会.

10/25/2018 11:43

第27回 強化学習アーキテクチャ勉強会 has been published!

Group

Ended

2018/10/30(Tue)

18:45
19:45

開催日時が重複しているイベントに申し込んでいる場合、このイベントには申し込むことができません

Registration Period
2018/10/25(Thu) 11:40 〜
2018/10/30(Tue) 19:45

Location

φcafe

東京都文京区本郷5丁目24-5 角川本郷ビル6F

Organizer

Attendees(45)

sinyamada

sinyamada

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

sat_sat

sat_sat

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

TakayukiSaruta

TakayukiSaruta

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

iZuno31

iZuno31

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

cute_na_cat

cute_na_cat

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

k_nmks

k_nmks

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

yykk

yykk

第27回 強化学習アーキテクチャ勉強会に参加を申し込みました!

omuram

omuram

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

yokoom

yokoom

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

msekine

msekine

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Attendees (45)

Waitlist (12)

MotoShin

MotoShin

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Yokoya-Tsuyoshi

Yokoya-Tsuyoshi

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

nikonikoten

nikonikoten

I joined 第27回 強化学習アーキテクチャ勉強会!

masa_s

masa_s

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

iss_f

iss_f

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

ShigeharuMukai

ShigeharuMukai

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

kekkaorai

kekkaorai

第27回 強化学習アーキテクチャ勉強会に参加を申し込みました!

小松 正幸

小松 正幸

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Nori_S

Nori_S

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Itsukara

Itsukara

第27回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Waitlist (12)

Canceled (15)