Oct
31
第7回 強化学習アーキテクチャ勉強会
Organizing : 山川宏
Registration info |
参加者 Free
FCFS
|
---|
Description
はじめに
強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。
本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。
当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。
スケジュール
- 18:50 〜18:55 オープニング
- 18:55〜19:55 講演:ポーカーAIと強化学習の周辺 (奥村純) 発表45分、質疑応答15分
※ 19:00にビル入り口が施錠されるため、19時以前に起こしください(万が一19時を過ぎてしまった場合はインターホンにてご連絡ください)
講演概要:
発表者1:奥村純
-
タイトル:ポーカーAIと強化学習の周辺
-
アブストラクト:
近年AtariやAlphaGoに代表されるような様々なゲームのベンチマークタスクが強化学習や深層学習の進展によって目覚ましい発展を遂げている。二人零和有限確定不完全情報ゲームであるポーカーは、対戦相手の手札・戦略が分からない状態で意思決定を行う必要があり、囲碁や将棋とは異なった問題設定・解決が必要となる。本講演では、2017年にポーカー(中でもHeads up No-limit Hold'em)でプロプレイヤーに勝利した2つのAI (Libratus [1], DeepStack [2])を中心に、その周辺アルゴリズムや考え方を紹介する。具体的には、不完全情報ゲームにおいてε-ナッシュ均衡を求める枠組みであるCFR (counterfactual regret minimization [3],[4])に始まり、ゲーム抽象化手法([5], [6])や深層強化学習を使ったアプローチ([7])について報告する。 -
参考文献:
[1] Libratus: The Superhuman AI for No-Limit Poker, https://www.ijcai.org/proceedings/2017/0772.pdf
[2] DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker, https://arxiv.org/abs/1701.01724
[3] Regret Minimization in Games with Incomplete Information, http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf
[4] Solving Heads-up Limit Texas Hold’em, http://poker.cs.ualberta.ca/publications/2015-ijcai-cfrplus.pdf
[5] Approximating game-theoretic optimal strategies for full-scale poker, http://poker.cs.ualberta.ca/publications/IJCAI03.pdf
[6] Abstraction for Solving Large Incomplete-Information Games, http://www.cs.cmu.edu/~sandholm/game%20abstraction.aaai15SMT.pdf
[7] Deep Reinforcement Learning from Self-Play in Imperfect-Information Games, https://arxiv.org/abs/1603.01121