お知らせ 【グループ管理者の皆さま】成長し続けるエンジニアを支援する「Forkwell」と「connpass」が連携し、connpass上でイベントを開催するグループを2020年3月末まで支援いたします。詳しくはこちら by Forkwell

このエントリーをはてなブックマークに追加

12月

18

第30回 強化学習アーキテクチャ勉強会

Organizing : 山川宏

Registration info

参加者

Free

FCFS
43/45

Description

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

  • 18:50 〜18:55 オープニング
  • 18:55〜19:45 脳のようにエビデンスを蓄積する強化学習モデルの紹介と視覚タスクへの応用

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)

講演概要:

発表者:太田 晋(ドワンゴ人工知能研究所/東京工科大学)

  • タイトル:脳のようにエビデンスを蓄積する強化学習モデルの紹介と視覚タスクへの応用

  • アブストラクト
    強化学習エージェントを現実世界に適用する場合には様々な不確実性に対処する必要がある. 例えば, ノイズを含んだ情報, 限られたセンサー能力, 環境そのものが内包する不確実性などである. こうした状況においては, 意思決定を遅らせて適切にエビデンス(証拠)を蓄積(アキュムレート)してから意思決定を行ったほうが良い場合も多い. 脳においては, 大脳基底核でこうした意思決定を行っており[2], それを参考とする形でエビデンスを蓄積する強化学習モデルが提案されている[1]. このモデルでは, エージェントは意思決定を行うために, まずそれぞれのアクションに対応するエビデンスをアキュムレータに蓄積していく. その後, エビデンスが十分に蓄積され意思決定に確信が持てるようになったら, 環境に対してアクションを実行する. このモデルは, 既存の強化学習アーキテクチャの出力レイヤの一部を修正することで, 様々なタイプの強化学習モデル(表形式/深層強化学習, on-policy/off-policy )に対してエラー・バックプロパゲーションにより実装可能である. 発表では, まずアキュムレータモデルの紹介を行い, 既存手法(A2C-RNN)では学習困難な “モード推定タスク“[3] において, このモデルがほぼ最適なパフォーマンスを達成したことを示す. 次に, 古典的な視覚タスクの一種である Random Dot Motion Discrimination [4][5]に対してこのモデルを適用した結果を報告する.

  • 参考文献
    [1] Akshat Agarwal and Abhinau Kumar V and Kyle Dunovan and Erik Peterson and Timothy Verstynen and Katia Sycara. Better Safe than Sorry: Evidence Accumulation Allows for Safe Reinforcement Learning. arXiv preprint arXiv:1809.09147. 2018. https://arxiv.org/abs/1809.09147
    [2] Dunovan, K., and Verstynen, T. Believer-skeptic meets actor-critic: Rethinking the role of basal ganglia pathways during decision-making and reinforcement learning. Frontiers in neuroscience 10:106. 2016. https://doi.org/10.3389/fnins.2016.00106
    [3] Mode Estimation Task. https://github.com/susumuota/gym-modeestimation
    [4] Joel Z. Leibo and Cyprien de Masson d’Autume and Daniel Zoran and David Amos and Charles Beattie and Keith Anderson and Antonio García Castañeda and Manuel Sanchez and Simon Green and Audrunas Gruslys and Shane Legg and Demis Hassabis and Matthew M. Botvinick. Psychlab: A Psychology Laboratory for Deep Reinforcement Learning Agents. arXiv preprint arXiv:1801.08116. 2018. https://arxiv.org/abs/1801.08116
    [5] Random Dot Motion Discrimination (Human play). https://youtu.be/IZtDkryWedY

Media View all Media

If you add event media, up to 3 items will be shown here.

Feed

rl_architecture

rl_architecture published 第30回 強化学習アーキテクチャ勉強会.

12/05/2018 17:26

第30回 強化学習アーキテクチャ勉強会 has been published!

Group

Ended

2018/12/18(Tue)

18:45
19:45

開催日時が重複しているイベントに申し込んでいる場合、このイベントには申し込むことができません

Registration Period
2018/12/05(Wed) 17:25 〜
2018/12/18(Tue) 19:45

Location

φcafe

東京都文京区本郷5丁目24-5 角川本郷ビル6F

Organizer

Attendees(43)

hirokuni_kawasaki

hirokuni_kawasaki

第30回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Kosuke Miyoshi

Kosuke Miyoshi

第30回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Tamaki Okui

Tamaki Okui

第30回 強化学習アーキテクチャ勉強会に参加を申し込みました!

k_nmks

k_nmks

第30回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

KanSAKAMOTO

KanSAKAMOTO

第30回 強化学習アーキテクチャ勉強会に参加を申し込みました!

StaPriEG2

StaPriEG2

第30回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

kobayashi_1101

kobayashi_1101

第30回 強化学習アーキテクチャ勉強会に参加を申し込みました!

lfs

lfs

第30回 強化学習アーキテクチャ勉強会に参加を申し込みました!

gm3d2

gm3d2

第30回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Attendees (43)

Canceled (18)