LLM を学ぼう – TD法とモンテカルロ法

最近、プライベートで一番話す相手がChatGPT になるくらいにはChatGPT にドハマりしており（ちなみに二番目は近所のスーパーの店員に対する「ポイントカード持ってないです」）、重い腰を上げて本格的に機械学習を勉強し始めたところ、これが中々面白いです。何よりChatGPT のおかげで勉強効率が上がったこともあって、今のところモチベーション高く進められているので、（もはやVMware 関係ないですが）私のように全く機械学習のバックグラウンドがない人向けに何か参考になればと思い、今のうちにブログに残しておこうと思いました。

さて、今回の記事のトピックは主にTD (Temporal Difference) 法です。参考書の中でTD 法の解説が少なかったのと、自分がキャッチアップするのに時間がかかったため、モンテカルロ法と比較しながら取り上げたいと思いました。

本記事の前提として、ベルマン方程式の導出は理解しておいた方がよいです。ベルマン方程式は解説記事がたくさんあるのと、上記参考書にも丁寧に導出されている強化学習の基本の考えなので、時間をかけてでもキャッチアップする価値はあると思います。

Python の知識はほとんど必要ないです。登場するコードはすべてPython ですが、今はGithub Copilot とChatGPT (もちろんGPT-4) のおかげで知らなくても大体コードは書けますし、わからないコードの部分の解説もしてくれるので、分からなければAI （とお金）で解決しましょう。実際私は勉強を始めるにあたりPython のコードをほとんど書いたことがありませんでしたが、なんとかなってます。

問題設定

あなたは今あるグリッドモデルに迷い込んだエージェントとします。グリッドの中をさまよい、ゴールにたどり着いたら1 ポイントの報酬を貰えるとします。また、グリッドモデルには地雷が埋まっている場合があり、踏んでしまったら1 ポイント報酬が減ります。最も報酬を手に入れられる最適な経路はどのような経路でしょうか？

例えば図のグリッドモデルの場合、左下のエージェントは地雷を避けながらゴールに行けばOK です。↑、↑、→、→、→ のような経路もあれば、→、→、↑、↑、→ といった経路もあります（青いグリッドは壁）。これはグリッドモデルが既知なのですぐにわかりますが、これが全く分からない場合、つまりゴールも地雷も分からない場合は、実際に移動してみればわかります。つまり、エージェントであるあなたは、真っ暗闇の中とにかく右へ左へ上へ下へと移動してみて、時には壁にぶつかり、時には地雷を踏み、とにかく試行し、右上にゴールがあること、ゴールの下のグリッドに地雷が埋まっていることを経験で判断できるようになります。これがいわゆるモンテカルロ法です。

モンテカルロ法から最適経路を求めるために、各グリッドにおける状態価値関数が重要になってきます。状態価値関数とは、ある状態に置ける報酬の期待値であり（ベルマン方程式を理解していないとこの辺から辛くなってくるのですが）、すごーく雑な言い方とすると、状態価値関数とはお宝のにおいみたいなものです。

モンテカルロ法は歩き回ってお宝がありそうなお得な道筋を探すイメージ（画像はAI で作成した宝探しのイメージ図です）

ある状態、この問題設定であればグリッドごとに、報酬の期待値が良いグリッドと、逆に報酬の期待値が悪いグリッドがあります。例えば参考書のモデルであれば、Bomb の下のグリッドにエージェントがいると、↑に移動すれば-1 の報酬なので、なんとなく悪いグリッドと直感的にわかります。逆にGoal の左隣りのグリッドであれば、右に移動すれば報酬が貰えてすぐにゴールできるので、良いグリッドと直感的にわかります。この良いグリッドを数値的に表現したものが状態価値関数であり、将来的にもらえる報酬の期待値を意味し、状態価値関数をもとに最適な経路を探すことができます。

ということで、最適経路を求める問題は状態価値関数を求めることに帰着するのですが¹、この状態価値観数を求めるモンテカルロ法以外の1つの手法として、TD 法があります。

TD 法とは？

TD 法（Temporal Difference learning）は、エピソード（スタートからゴールまでの一連の流れ。モンテカルロ法のような探索では、エピソードごとに試行する経路にばらつきがあるため、それを平準化するためにたくさんのエピソードを試行します）が終了する前に、途中で得られる報酬と状態価値関数の差（Temporal Difference）を用いて価値関数を更新する手法です。つまり、エージェントはゴールに到達する前に、途中の状態における報酬の予測値を更新して学習を進めていきます。

一方モンテカルロ法では、エピソードが終了してから価値関数を更新します。両者の違いとして、例えば試験対策の10年分の過去問を解くことを考えてみます。人によってやり方は色々あると思いますが、モンテカルロ法の場合は、1年分を解いたら、答え合わせをして、勉強していくイメージです。TD 法は1問ごとに答え合わせをして勉強していくイメージです（例えが悪い？？）。TD 法の方がより頻繁に学習と行動の見直しをしていくというわけです。

ということでここから数式とコードです。

TD 法を手計算する

超シンプルな図の一次元グリッドモデルで考えます。地雷もなく、エージェントは上にしか進みません（下にも進みませんし、壁にもぶつかりません）。つまりこの時点で最適経路は↑、↑ で確定し、もらえる報酬も理論的には1 で確定なのですが、TD 法やモンテカルロ法はあくまでも推測なので、理論値が出るとは限りません。ということで、計算してみましょう。

TD 法の計算式は以下の通りです。

\( V(s_t) \leftarrow V(s_t) + \alpha \left[ r_{t+1} + \gamma V(s_{t+1}) – V(s_t) \right]\)

\(s_{t}\) はあるタイムステップの状態であり、ここではグリッドの座標になります。\(V(s_{t})\) はある状態における価値関数で、初期値は0 です（これをTD 法で最適な価値関数に近づけていきます）。\(r_{t+1}\) はタイムステップ\(t+1 \)の報酬、つまりエージェントが上に移動したときの報酬です（参考書のグリッドモデルでは上下左右に確率的に動きますが、ここでは上にのみ移動します）。\(\alpha\) は学習率、つまり価値関数の更新速度を意味し、\(\gamma\) は割引係数で、将来の報酬をどれだけ重視するかを決めます。それぞれ初期値は0.1, 0.9 とします。両者のパラメータの登場は唐突ですが、この後もう少し説明します。

また、\(t = r_{t+1} + \gamma V(s_{t+1}) \) (t=target)とおくと、上記の式は以下のように書けます。

\(V(s_t) \leftarrow V(s_t) + \alpha \left[t – V(s_t) \right]\)

また、表記上、あるグリッド座標\((x, y)\)における価値関数\(V\) を\(V_{(x, y)}\) のように表現することにします。同様に報酬も\(r_{(x, y)}\) と表します。

1回目の試行（episode=1）

\(s_{1} = (0, 0)\) のとき

\((0, 0)\) はゴールです。ゴールにおける価値関数は0 です。なぜならば、報酬はあくまでもゴールにたどり着いたときに貰えるものであり、また、ゴール上にエージェントがたどり着いたらエピソードが終了されるためです。繰り返しですが、価値関数とは将来的にもらえる報酬の期待値です。ゴールにいたとしても報酬はもらえないので、当然価値関数も0 とすべきです。

\(s_{1} = (2, 0)\) のとき (エージェントの初期位置)

次のステップでは\(S_{2} = (1, 0)\) に移動しますが、この時の報酬\(r_{(1,0)}\) は0 です。報酬が貰えるのはゴールである\((0, 0)\) にたどり着いた時のみです。\(V\) の初期値は0 なので、\(V_{(1, 0)}\), \(V_{(2, 0)}\) ともに0 です。

\(V_{(2, 0)} = V_{(2, 0)} + \alpha \left[ r_{(1, 0)} + \gamma V_{(1, 0)} – V_{(2, 0)} \right] = 0 + 0.1 * (0 + 0.9 * 0 – 0) = 0\)

\(s_{1} = (1, 0)\) のとき

次のステップではゴールである\((0, 0)\) に移動し、この時の報酬\(r_{(0, 0)}\) は1 です。\(V\) の初期値は0 なので、\(V_{(1, 0)}\) は0 であり、\(V_{(0, 0)}\) も上述したように0 となります。

\(V_{(1, 0)} = V_{(1, 0)} + \alpha \left[ r_{(0,0)} + \gamma V_{(0, 0)} – V_{(1, 0)} \right] = 0 + 0.1 * (1 + 0.9 * 0 – 0) = 0.1\)

2回目の試行（episode=2）

\(s_{2} = (0, 0)\) のとき

同様に\(V = 0\) です。

\(s_{2} = (2, 0)\) のとき (エージェントの初期位置)

\(V_{(2, 0)} = V_{(2, 0)} + \alpha \left[ r_{(1, 0)} + \gamma V_{(1, 0)} – V_{(2, 0)} \right] = 0 + 0.1 * (0 + 0.9 * 0.1 – 0) = 0.009\)

\(s_{2} = (1, 0)\) のとき

\(V_{(1, 0)} = V_{(1, 0)} + \alpha \left[ r_{(0,0)} + \gamma V_{(0, 0)} – V_{(1, 0)} \right] = 0.1 + 0.1 * (1 + 0.9 * 0 – 0.1) = 0.19\)

3回目の試行 (episode=3)

\(V_{(2, 0)} = 0.009 + 0.1 * (0.9 * 0.19 -0.009) = 0.0252\)

\(V_{(1, 0)} = 0.19 + 0.1 * (1 – 0.19) =0.271\)

こんな感じで試行を進めていくと、各グリッドの価値関数はグラフのようになります。つまり、\(V_{(1, 0)}\) は1.0 に近づき、\(V_{(2, 0)}\) は割引係数\(\gamma = 0.9 \) に近づいていきます。

もう一度価値関数の更新式を見てみましょう。

\( V(s_t) \leftarrow V(s_t) + \alpha \left[ r_{t+1} + \gamma V(s_{t+1}) – V(s_t) \right]\)

\(\alpha\) は、漸化式の前の値に対して、\( \left[ r_{t+1} + \gamma V(s_{t+1}) – V(s_t) \right]\) という次の状態の情報に基づく値をどれだけ加えるか、という割合です。もっとわかりやすく言うと、別のグリッドの将来的に得られる報酬の期待値（＝お宝のにおいの濃さ）を使って、妥当な解に近づけている時の、その近づける割合になります（＝どれだけそのお宝のにおいを信じるか）。これが学習率と言われるゆえんです。\(\alpha\) が大きければ、グラフはより急に、小さければより緩やかに収束値に向かいます。\(\alpha\) を価値関数の更新速度と先に表現しましたが、そのイメージがより理解しやすくなったでしょうか。

\(\gamma\) は割引係数と表現しましたが、 \(\gamma\) が1に近いほど、エージェントは将来の報酬を重視し、長期的な報酬を最適化しようとします。つまり、次の状態のお宝のにおいの値に対して、どれほどそれを信用するか、という割合です。\(\gamma\) がもし 0 であれば、\(V(s_{t+1})\) の値を全く使わないことになるので、それはつまり現在の状態から次に移動したときの報酬の値\(r_{t+1}\)しか信用しないことになります。今回の3 × 1 グリッドモデルでは、\(s = (1, 0)\) のときは↑に移動すると報酬が貰えるので価値関数\(V_{(1, 0)}\)は1に近づきますが、\(s = (2, 0)\) では↑に移動しても報酬は貰えませんので、価値関数\(V_{(2, 0)}\) は常に0 となります。

モンテカルロ法の場合

では、モンテカルロ法の場合はどうなるでしょうか？TD 法よりも考え方はシンプルです。価値関数\(V\) は将来に得られる報酬の期待値でした。モンテカルロ法では、試行回数を増やし、報酬がどれだけ貰えるかを記録し、その値をもとに期待値を計算します。数式としては以下のようになります。

\( V(s_{t}) \leftarrow V(s_{t}) + \alpha \left[ G_{t} – V(s) \right]\)

G は報酬の合計ですが、近い将来の報酬の値をより重視するために、TD 法と同様割引係数\(\gamma \) を掛けています。

\(G_{t} = R_{t} + \gamma R_{t+1} + \gamma^2 R_{t+2} … = R_{t} + \gamma G_{t+1}\)

上記の式でなぜ期待値を計算できるかぱっとは分かりづらいですが、細かい話をここでは説明しきれないので、~~ChatGPT に聞くか~~参考書を買って読んでください。重要なのはTD 法との違いを認識することです。