お知らせ 【技術コミュニティ運営者の皆さま】成長し続けるエンジニアを支援する「Forkwell」と「connpass」が連携し、connpass上でイベントを開催する技術コミュニティを2020年3月末まで支援いたします。詳しくはこちら by Forkwell

このエントリーをはてなブックマークに追加

1月

16

第11回 強化学習アーキテクチャ勉強会

Organizing : 山川宏

Registration info

参加者

Free

FCFS
41/40

Description

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

  • 18:50 〜18:55 オープニング
  • 18:55〜19:55 講演:逆強化学習×ノンパラメトリックベイズ(石川 翔太)発表45分、質疑応答15分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)

講演概要:

発表者:石川 翔太 (千葉大学)

  • タイトル: 逆強化学習×ノンパラメトリックベイズ

  • アブストラクト: 逆強化学習はエキスパートデータを所与として,そのエキスパートが受け取っていたとされる報酬関数を推定する手法である.推定した報酬は二つの用途に用いられる.一つ目は推定した報酬にもとづいて強化学習を行い,エキスパートの方策を学習する「模倣学習」,二つ目は推定した報酬をもとにエキスパートがどのような目的を持って行動したのかを理解する「行動解析」である.本発表では二つ目の「行動解析」に対する有効なアプローチであるノンパラメトリックベイズを用いた逆強化学習について説明する.基礎となるベイジアン逆強化学習ではエキスパートがどのようなタスクを解いていたのかなどの事前知識を報酬の事前確率として導入し,エキスパートデータに適合する報酬の事後確率を計算する手法である.これをノンパラメトリック化することにより,導入できる事前知識の自由度を大きくできるため,より複雑な報酬の事後確率を計算することができる.紹介する手法では,迷路の途中で目的地を変更するエキスパートデータが与えられたときやエキスパートデータに複数のエキスパートが混ざっているときに,エキスパートの行動解析に有効なアプローチである.

  • 参考文献
    Ramachandran, D., & Amir, E. (2007). Bayesian inverse reinforcement learning. In IJCAI International Joint Conference on Artificial Intelligence (pp. 2586–2591).
    Choi, J., & Kim, K. E. (2013). Bayesian Nonparametric Feature Construction for Inverse Reinforcement Learning. In IJCAI International Joint Conference on Artificial Intelligence (pp. 1287–1293).
    Michini, B., & P. How, J. (2012). Bayesian Nonparametric Inverse Reinforcement Learning. Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 148–163.
    Choi, J., & Kim, K. E. (2012). Nonparametric Bayesian Inverse Reinforcement Learning for Multiple Reward Functions. In Nips (pp. 1–9).
    Surana, A., & Srivastava, K. (2014). Bayesian Nonparametric Inverse Reinforcement Learning for Switched Markov Decision Processes. In 2014 13th International Conference on Machine Learning and Applications (pp. 47–54).

Media View all Media

If you add event media, up to 3 items will be shown here.

Feed

rl_architecture

rl_architecture published 第11回 強化学習アーキテクチャ勉強会.

01/10/2018 10:20

第11回 強化学習アーキテクチャ勉強会 has been published!

Group

Ended

2018/01/16(Tue)

18:45
20:35

開催日時が重複しているイベントに申し込んでいる場合、このイベントには申し込むことができません

Registration Period
2018/01/10(Wed) 10:20 〜
2018/01/16(Tue) 20:35

Location

φcafe

東京都文京区本郷5丁目24-5 角川本郷ビル6F

Organizer

Attendees(40)

i-shota

i-shota

第11回 強化学習アーキテクチャ勉強会に参加を申し込みました!

ajk

ajk

第11回 強化学習アーキテクチャ勉強会に参加を申し込みました!

masaakitsuchida

masaakitsuchida

第11回 強化学習アーキテクチャ勉強会に参加を申し込みました!

TomMoriyama

TomMoriyama

第11回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Jun Okumura

Jun Okumura

第11回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Yusuke922

Yusuke922

第11回 強化学習アーキテクチャ勉強会に参加を申し込みました!

ikeyasu

ikeyasu

第11回 強化学習アーキテクチャ勉強会に参加を申し込みました!

m_n_z

m_n_z

第11回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

cute_na_cat

cute_na_cat

第11回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

ryo_n

ryo_n

第11回 強化学習アーキテクチャ勉強会 に参加を申し込みました!

Attendees (40)

Waitlist (1)

TakayukiSaruta

TakayukiSaruta

第11回 強化学習アーキテクチャ勉強会に参加を申し込みました!

Waitlist (1)

Canceled (10)