G検定｜深層強化学習｜モンテカルロ木探索・AlphaGoなどを分かりやすく解説

※本記事はアフィリエイト広告を含んでいます

どーも、りけーこっとんです。

「G検定取得してみたい！」「G検定の勉強始めた！」

このような、本格的にデータサイエンティストを目指そうとしている方はいないでしょうか？

また、こんな方はいませんか？

「なるべく費用をかけずにG検定取得したい」「G検定の内容について網羅的にまとまってるサイトが見たい」

今回はG検定の勉強をし始めた方、なるべく費用をかけたくない方にピッタリの内容。

りけーこっとんがG検定を勉強していく中で、新たに学んだ単語、内容をこの記事を通じてシェアしていこうと思います。

結構、文章量・知識量共に多くなっていくことが予想されます。

そこで、超重要項目と重要項目、覚えておきたい項目という形で表記の仕方を変えていきたいと思いますね。

早速G検定の中身について知りたいよ！という方は以下からどうぞ。

具体的にどうやって勉強したらいいの？
G検定ってどんな資格？

そんな方は以下の記事を参考にしてみてください。

なお、りけーこっとんは公式のシラバスを参考に勉強を進めています。

そこで主な勉強法としては

分からない単語出現　⇒　web検索や参考書を通じて理解　⇒　暗記する

この流れです。

※この記事は合格を保証するものではありません

大項目「ディープラーニングの手法」
モンテカルロ木探索
アルファ碁
1. 教師ありフェーズ
2. 強化学習フェーズ
アルファ碁ゼロ(AlphaGo Zero)
アルファゼロ (Alpha Zero)
OpenAI Five
アルファスター (AlphaStar)
まとめ

大項目「ディープラーニングの手法」

G検定のシラバスを見てみると、試験内容が「大項目」「中項目」「学習項目」「詳細キーワード」と別れています。

本記事は「大項目」の「ディープラーニングの手法」の内容。

その中でも「深層強化学習」というところに焦点を当ててキーワードを解説していきます。

G検定の大項目には以下の８つがあります。

・人工知能とは
・人工知能をめぐる動向
・人工知能分野の問題
・機械学習の具体的な手法
・ディープラーニングの概要
・ディープラーニングの手法
・ディープラーニングの社会実装に向けて
・数理統計

とくに太字にした「機械学習とディープラーニングの手法」が多めに出るようです。

今回はディープラーニングの手法ということもあって、G検定のメインとなる内容。

ここを理解していないと、G検定合格は難しいでしょう。

ここから先の学習の理解を深めるために、そしてG検定合格するために、しっかり押さえておきましょう。

シラバスはこちらからご覧になれます。

今回は深層学習の応用例（主にゲーム）を見ていきたいと思います。。

今までの記事で、見たことある単語も出てくるとは思いますが、復習の意味も兼ねて触れていきますね。

モンテカルロ木探索

モンテカルロ木探索とは、モンテカルロ法を用いた報酬を得るための最善手を選ぶ手法。

次のどの行動をとると、最善なのか（ゲームで言うと勝てるのか）を機械が考える方法ですね。

モンテカルロ法とは、モンテカルロ木探索の基本形ともいえるかと。

ある状態から各行動についてランダムに決まった回数、実行（ゲームプレイ）を繰り返して、報酬を計算します。（ゲームの場合は勝率など）

これが計算できたら、最も報酬が高い行動を選択すれば最善手が行動できるよね、というのがモンテカルロ法。

ただ、これだと次のような問題があります。

・次の全ての行動で計算を行うので、計算量が膨大
・次の手以降の行動実行はランダムであること

なので効率的に計算を行うのと、より良い手を考えるためにモンテカルロ木探索が考えられたんです。

計算によって、なるべく有望な手だけの実行（ゲームプレイ）数を増やすことで、無駄な手の計算を減らしました。

これにより、効率的に次の手を打てるようになったわけです。

しかしモンテカルロ木探索だけでは、トップ囲碁棋士には全然勝てませんでした。

アルファ碁

アルファ碁とは、DeepMind社が開発した初めてトップ囲碁棋士に勝利したAIのこと。

2016年に登場し、トップ囲碁棋士に勝利したことから、注目されました。

前述のモンテカルロ木探索も採用されています。

しかしモンテカルロ木探索だけでは、トップ囲碁棋士には勝てません。

そこで、以下に示す「教師ありフェーズ」と「強化学習フェーズ」を組み合わせることで、囲碁が強いAIを作成できました。

それぞれ見ていきましょう。
（あまり時間のない方は読み飛ばして「アルファ碁ゼロ」も大丈夫だと思います。）

教師ありフェーズ

教師ありフェーズには、二つのディープラーニングが採用されています。

・Supervised Learning Policy Network (SL Policy)
・Rollout Policy

二つのネットワークとも、やることは似ています。

人の棋譜を教師データとして、ネットワークを学習。
入力は「現在の盤面」、出力は「次の盤面予測」です。

では、この二つのネットワークは何が違うのか？
それは、精度と計算速度です。

SL Policyの方が精度は高いですが、計算に時間がかかります。

Rollout Policyは予測精度を下げる代わりに、計算を高速化しているんですね。

どちらの特徴も持っているネットワークを学習することで、「精度」と「計算時間」のバランスを取ったようです。

強化学習フェーズ

強化学習フェーズにも、二つのディープラーニングが採用されています。

・Reinforcement Learning Policy Network (RL Policy)
・Value Network

まず教師ありフェーズで作成したSL Policy同士を対戦させます。

RL Policyとは、勝った方のSL Policyを方策勾配法で強化したもののこと。

教師データはRL PolicyとSL Policyの対戦の勝敗。
入力は今の盤面、出力は次の盤面を予測します。

つまりRL Policyは、SL Policyの強化版とも言えますね。

今度は、強化されたRL Policy同士を対戦させます。

RL Policy対戦で得られた棋譜をもとに、Value Networkを作成。

教師データはRL Policyで作成した棋譜。
入力は今の盤面、出力は勝率を予測します。

そして教師ありフェーズのSL Policy、強化学習フェーズのValue Network、モンテカルロ木探索を組み合わせてアルファ碁はできているようですね。

アルファ碁ゼロ(AlphaGo Zero)

アルファ碁ゼロ(AlphaGo Zero)は、2017年10月に発表されたアルファ碁の進化バージョン。

アルファ碁では、教師ありフェーズで人間の棋譜が必要でした。

でも、人間の棋譜データをたくさん集めるのは大変です。

そこで、人間の棋譜を使わなくても囲碁が強いAIを作成したのが、アルファ碁ゼロ。

自己対戦のみから棋譜を作成しています。

学習にかかる時間も短くなり、アルファ碁よりも強いAIを作成することに成功しています。

アルファゼロ (Alpha Zero)

アルファゼロ (Alpha Zero)は、2017年12月にDeepMind社が発表したアルファ碁ゼロの改良バージョン。

アルファ碁は囲碁にのみ特化したプログラムでした。

しかし、アルファゼロは「将棋」「チェス」「囲碁」どのゲームでも使えるように、汎化したもの。

どのゲームにおいても、当時の最強ソフトを上回る強さを発揮したのだとか。

しかも学習時間は12時間。

アルファ碁が1か月程かかっていたことを考えると、目覚ましい進歩ですよね。

アプローチ的にはアルファ碁ゼロと同じものを使用しているようです。

OpenAI Five

OpenAI Fiveとは、「Dota 2」というゲーム専用のAIプログラム。

「Dota 2」は対戦型リアルタイムストラテジーゲームで、今までの囲碁や将棋とはまた別種のゲームですよね。

どんなゲームかは、以下のURLからどうぞ。

Dota 2

Every day, millions of players worldwide enter battle as one of over a hundred Dota heroes. And no matter if it's their ...

開発したのは、人工知能を研究する非営利団体「OpenAI」。

このゲームにおいても2019年4月に、AIが2018年度世界大会覇者に勝利し、話題になりました。

将棋や囲碁だけでなく、様々なゲームでAIが進化していることがよくわかる例です。

アルファスター (AlphaStar)

アルファスター (AlphaStar)とは、ビデオゲームStarCraft IIをプレイするDeepMindのコンピュータープログラム。

2019年1月に公開され、こちらも世界王者を破っています。

どんなゲームかは、以下のURLからどうぞ。

StarCraft II Official Game Site

Wage war across the galaxy with three unique and powerful races. StarCraft II is a real-time strategy game from Blizzard...

学習を自動化したり、自己対戦で強化学習を行っていくなど、既存の手法の発展となっているようです。

まとめ

今回は大項目「ディープラーニングの手法」の中の一つ「深層強化学習」についての解説第三弾でした。

本記事をまとめると以下の３つ。

・モンテカルロ木探索
・アルファ碁
・アルファ碁ゼロ(AlphaGo Zero)
・アルファゼロ (Alpha Zero)
・OpenAI Five
・アルファスター (AlphaStar)

以上が大項目「ディープラーニングの手法」の中の一つ「深層強化学習」の内容でした。

ディープラーニングに関しても、細かく学習しようとするとキリがありませんし、専門的過ぎて難しくなってきます。

そこで、強化学習と同じように「そこそこ」で理解し、あとは「そういうのもあるのね」くらいで理解するのがいいでしょう。

そこで以下のようなことが重要になってくるのではないかと。

・ディープラーニングの特徴（それぞれの手法はどんな特徴があるのか）
・それぞれの手法のアルゴリズム（数式を覚えるのではなく、何が行われているか）
・何に使用されているのか（有名なもののみ）

ディープラーニングは様々な手法があるので、この三つだけでも非常に大変です。

しかし、学習を進めていると有名なものは、何度も出てくるので覚えられるようになります。

後は、新しい技術を知っているかどうかになりますが、シラバスに載っているものを押さえておけば問題ないかと。

次回は「ディープラーニングの手法」の「モデルの解釈性・軽量化」に触れていきたいと思います。

長かった「機械学習の手法」もラストスパート！

ではまた～

続きは以下のページからどうぞ！