Description
はじめに
強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や,実世界で動かす強化学習(ロボット・自動運転),強化学習を部品として組み合わせる(アーキテクチャ),といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。
本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。
当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。
- Google Group: https://goo.gl/xznKlY (注:KlYのIは「L」の小文字です)
- Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
- Twitter: #rlarch 勉強会のハッシュタグを作りました.コメントや質問等にご活用ください.
会場の注意点:
- DEEPCORE様のご厚意により,2019年4月から会場がKERNEL HONGO(ユニゾ本郷四丁目ビル 3F)となります.
- 入室の際,参加者の把握のため,受付にて「お名前・ご所属・ご連絡先」を記入していただくことになりました(名刺をご提出いただく形でも構いません).
- 正面口(本郷通り沿い)にロックがかかっている場合があります. 正面口がロックされている場合には,裏側の階段から3階に上がって頂く形になります.
ご協力の程,よろしくお願いいたします.
スケジュール
- 19:15〜19:20 オープニング
- 19:20〜20:10 タイトル:多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
講演概要
発表者:阿部拳之(株式会社サイバーエージェント AILab)
-
タイトル
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~ -
アブストラクト
多人数不完全情報ゲームに対する研究では,Counterfactual Regret minimization (CFR) などのアルゴリズムによってナッシュ均衡戦略に近い戦略を得るアプローチが多く取られてきた. しかし,3人以上のプレイヤが存在する場合,あるプレイヤがナッシュ均衡戦略に従うことで必ずしも良い結果を得られるわけではない,という問題が存在する. 本発表では,上記の問題に対するアプローチを,不完全情報ゲームの研究題材としてしばしば取り上げられるポーカーと麻雀を事例として紹介する. -
参考文献
[1] Naoki Mizukami and Yoshimasa Tsuruoka. Building a computer mahjong player based on monte carlo simulation and opponent models. In 2015 IEEE Conference on Computational Intelligence and Games (CIG), pp. 275–283. IEEE, 2015.
[2] Noam Brown and Tuomas Sandholm. Safe and nested subgame solving for imperfect-information games. In Advances in neural information processing systems, pp. 689–699, 2017.
[3] Noam Brown and Tuomas Sandholm. Superhuman ai for heads-up no-limit poker: Libratus beats top professionals. Science, Vol. 359, No. 6374, pp. 418–424, 2018.
[4] Shiqi Gao, Fuminori Okuya, Yoshihiro Kawahara, and Yoshimasa Tsuruoka. Supervised learning of imperfect information data in the game of mahjong via deep convolutional neural networks. Information Processing Society of Japan, 2018.
[5] Moyuru Kurita and Kunihito Hoki. Method for constructing artificial intelligence player with abstraction to markov decision processes in multiplayer game of mahjong. arXiv preprint arXiv:1904.07491, 2019.
[6] Noam Brown and Tuomas Sandholm. Superhuman ai for multiplayer poker. Science, eaay2400, 2019.
Media View all Media
If you add event media, up to 3 items will be shown here.