第7回強化学習アーキテクチャ勉強会

お知らせ connpassではさらなる価値のあるデータを提供するため、2024年5月23日(木)を以ちましてイベントサーチAPIの無料での提供の廃止を決定いたしました。
2024年5月23日(木)以降より開始予定の「connpass 有料API」の料金プランにつきましてはこちらをご覧ください。
なお有料の対象となるのはAPIのみであり、connpassのサービスにつきましては今後も無料でご利用いただけます。

10月

31
第7回強化学習アーキテクチャ勉強会

主催 : 山川宏

募集内容	参加者無料先着順 30/40人
申込者	申込者一覧を見る
開催日時	2017/10/31(火) 18:45 ～ 20:30 Googleカレンダー icsファイル
募集期間	2017/10/24(火) 17:53 〜 2017/10/31(火) 20:30まで
会場	φcafe 東京都文京区本郷5丁目24-5　角川本郷ビル6F マップで見る会場のサイトを見る

イベントの説明

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

スケジュール

18:50 〜18:55 オープニング
18:55〜19:55 講演：ポーカーAIと強化学習の周辺（奥村純）発表45分、質疑応答15分

※ 19:00にビル入り口が施錠されるため、19時以前に起こしください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者1：奥村純

タイトル：ポーカーAIと強化学習の周辺
アブストラクト：
近年AtariやAlphaGoに代表されるような様々なゲームのベンチマークタスクが強化学習や深層学習の進展によって目覚ましい発展を遂げている。二人零和有限確定不完全情報ゲームであるポーカーは、対戦相手の手札・戦略が分からない状態で意思決定を行う必要があり、囲碁や将棋とは異なった問題設定・解決が必要となる。本講演では、2017年にポーカー（中でもHeads up No-limit Hold'em）でプロプレイヤーに勝利した2つのAI (Libratus [1], DeepStack [2])を中心に、その周辺アルゴリズムや考え方を紹介する。具体的には、不完全情報ゲームにおいてε-ナッシュ均衡を求める枠組みであるCFR (counterfactual regret minimization [3],[4])に始まり、ゲーム抽象化手法([5], [6])や深層強化学習を使ったアプローチ（[7]）について報告する。
参考文献：
[1] Libratus: The Superhuman AI for No-Limit Poker, https://www.ijcai.org/proceedings/2017/0772.pdf
[2] DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker, https://arxiv.org/abs/1701.01724
[3] Regret Minimization in Games with Incomplete Information, http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf
[4] Solving Heads-up Limit Texas Hold’em, http://poker.cs.ualberta.ca/publications/2015-ijcai-cfrplus.pdf
[5] Approximating game-theoretic optimal strategies for full-scale poker, http://poker.cs.ualberta.ca/publications/IJCAI03.pdf
[6] Abstraction for Solving Large Incomplete-Information Games, http://www.cs.cmu.edu/~sandholm/game%20abstraction.aaai15SMT.pdf
[7] Deep Reinforcement Learning from Self-Play in Imperfect-Information Games, https://arxiv.org/abs/1603.01121