第36回強化学習アーキテクチャ勉強会【今回から会場がKERNEL HONGOに変更となります】

お知らせ【メンテナンスのお知らせ】4月25日(木)10:00から1時間半ほど、メンテナンス作業を予定しております。作業の間はconnpassのご利用が出来ません。ご迷惑をおかけしますが何卒ご了承ください。

お知らせ connpassではさらなる価値のあるデータを提供するため、2024年5月23日(木)を以ちましてイベントサーチAPIの無料での提供の廃止を決定いたしました。
2024年5月23日(木)以降より開始予定の「connpass 有料API」の料金プランにつきましてはこちらをご覧ください。
なお有料の対象となるのはAPIのみであり、connpassのサービスにつきましては今後も無料でご利用いただけます。

4月

9
第36回強化学習アーキテクチャ勉強会【今回から会場がKERNEL HONGOに変更となります】

主催 : 山川宏

募集内容	参加者無料先着順 45/50人
申込者	申込者一覧を見る
開催日時	2019/04/09(火) 18:50 ～ 19:45 Googleカレンダー icsファイル
募集期間	2019/04/05(金) 16:12 〜 2019/04/09(火) 19:45まで
会場	KERNEL HONGO 東京都文京区本郷4-1-4 ユニゾ本郷四丁目ビル 3F マップで見る

イベントの説明

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

今回からの注意点：

DEEPCORE様のご厚意により，今回から会場がKERNEL HONGO（ユニゾ本郷四丁目ビル 3F）となります．
入室の際，参加者の把握のため，受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました（名刺をご提出いただく形でも構いません）．
19：00頃になると正面口（本郷通り沿い）にロックがかかりますので，（特に新会場の初回である今回については）なるべく遅刻しないようにお越しください．もし19:00をすぎる場合には，裏側の階段から3階に上がって頂く形になります．

ご協力の程，よろしくお願いいたします．

スケジュール

18:50〜18:55 オープニング
18:55〜19:45 論文紹介：Learning to Generalize from Sparse and Underspecified Rewards

講演概要：

発表者：斎藤惇（株式会社Nextremer）

タイトル：論文紹介：Learning to Generalize from Sparse and Underspecified Rewards
アブストラクト
自然言語の指示文章に対応する行動の系列生成やデータベースの検索クエリの生成などを従来の強化学習の枠組みに適用しようとすると、系列全体に成功または失敗に対応する2値な報酬関数しか与えられないことが多い。このような困難は物理環境に基づく問題設定には見られない特徴であるといえる。また、同一の目的を達成する行動系列であっても指示文章が１つしか与えられない場合は、タスクを成功させる系列の探索に困難が伴う。報酬が疎である場合は探索を行う必要がある一方で、省略されている文脈に対応する行動を生成できるような一般性も獲得する必要がある。紹介論文は、このような報酬が疎であるだけでなく同時にタスクの達成軌跡を全て表現するための情報が省略されている場合においても有効な手法を提案した。 MAMLおよびBaysian Optimizationの枠組みを用いた手法として、それぞれ、Meta Reward Learning ( MeRL ) およびBaysian Optimization Reward Learning (BORL)が提案されている。これらの手法は、省略されている文脈に対応する行動の汎化度合いをValidation データによって評価して偶然の成功によって生成されないように学習しているとみなせる。
参考文献
[1] Learning to Generalize from Sparse and Underspecified Rewards, Rishabh Agarwal, Chen Liang, Dale Schuurmans, Mohammad Norouzi, https://arxiv.org/abs/1902.07198