状態価値関数・行動価値関数からベルマン方程式の導出まで

公開:
強化学習 #状態価値関数 #行動価値関数 #ベルマン方程式

価値関数

強化学習において価値関数(value function)は、状態もしくは状態−行動ペアの関数で、その状態もしくは状態-行動がどれだけ「良い」かを推定するための関数です。 強化学習における「良さ」とは、将来的に受け取れる報酬(期待収益; expected return)によって定義されます。

状態価値関数

方策 π\pi とは、各状態 sSs \in \mathcal{S} と行動 aA(s)a \in \mathcal{A}(s) に対して、その状態 ss で行動 aa を選ぶ確率 π(as)\pi(a|s) を与える写像であることを思い出してください。方策 π\pi の下での状態価値関数 vπ(s)v_\pi(s) は、状態 ss から開始し、その後は π\pi に従うときの期待収益として次のように定義されます。

vπ(s)=Eπ ⁣[GtSt=s]=Eπ ⁣[k=0γkRt+k+1 | St=s]v_{\pi}(s)=\mathbb{E}_{\pi}\!\left[G_t \mid S_t=s\right] =\mathbb{E}_{\pi}\!\left[\sum_{k=0}^{\infty}\gamma^{k}R_{t+k+1}\ \middle|\ S_t=s\right]

ここで Eπ[]\mathbb{E}\pi[\cdot] は、エージェントが方策 π\pi に従うという条件の下での確率変数の期待値を表し、tt は任意の時刻です。

行動価値関数

方策 π\pi の下で状態 ss において行動 aa を取ることの価値 qπ(s,a)q_\pi(s,a) を、状態 ss から開始し、行動 aa を取り、その後は方策 π\pi に従うときの期待収益として定義します

qπ(s,a)=Eπ ⁣[GtSt=s, At=a]=Eπ ⁣[k=0γkRt+k+1 | St=s, At=a].q_{\pi}(s,a)=\mathbb{E}_{\pi}\!\left[G_t \mid S_t=s,\ A_t=a\right] =\mathbb{E}_{\pi}\!\left[\sum_{k=0}^{\infty}\gamma^{k}R_{t+k+1}\ \middle|\ S_t=s,\ A_t=a\right].

関数 qπq_\pi を、方策 π\pi の行動価値関数(action-value function)と呼びます。


ベルマン方程式

準備(広義の遷移確率)

状態の遷移確率を次のように、状態と報酬との同時確率で定義します。

p(s,rs,a)p(s',r|s,a)

教科書によっては遷移確率を p(ss,a)p(s'|s,a) として定義していますが、以下ではrr が含まれていることの説明をしておきます。 一般的には、同じ s,a,ss,a,s' に対しての報酬

r(s,a,s)r(s,a,s')

は確率的にブレる状況が生じます。例えば測定誤差や乱数ノイズなどが生じるケースや、その瞬間の市場価格・需要・天候などで利益(報酬)が変わる様な在庫補充、電力取引、配車であったりなどのケースが挙げられます。そのため、以下のように ss' だけでなく rr も含んだ 同時確率 の形式で定義しておきます。

図の説明
同じ状態に対して得られる報酬が確率的にブレる場合、同時確率として表すことになる。

状態価値関数に対する導出

価値関数の基本的な性質は、特定の再帰関係を満たすことです。任意の方策 π\pi と任意の状態 ss に対して、次の条件が成り立ちます。

vπ(s)=Eπ ⁣[GtSt=s]=Eπ ⁣[k=0γkRt+k+1 | St=s]=Eπ ⁣[Rt+1+γk=0γkRt+k+2 | St=s]=Eπ ⁣[Rt+1|St=s]+Eπ[γk=0γkRt+k+2 | St=s]\begin{aligned} v_{\pi}(s) &= \mathbb{E}_{\pi}\!\left[ G_t \mid S_t = s \right] \\ &= \mathbb{E}_{\pi}\!\left[ \sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \ \middle|\ S_t = s \right] \\ &= \mathbb{E}_{\pi}\!\left[ R_{t+1} + \gamma \sum_{k=0}^{\infty} \gamma^{k} R_{t+k+2} \ \middle|\ S_t = s \right] \\ &= \mathbb{E}_{\pi}\!\left[ R_{t+1} \middle| S_t =s \right] + \mathbb{E}_{\pi} \left[\gamma \sum_{k=0}^{\infty} \gamma^{k} R_{t+k+2} \ \middle|\ S_t = s \right] \end{aligned}

ここで1ステップ遷移あとの状態を St+1=sS_{t+1} = s' とすると、方策 π\pi による行動の選択と遷移確率とを考慮すると第一項は

Eπ ⁣[Rt+1|St=s]=as,r(π(as)p(s,rs,a)×r)\begin{aligned} \mathbb{E}_{\pi}\!\left[ R_{t+1} \middle| S_t =s \right] &= \sum_{a} \sum_{s',r} \left( \pi(a|s) p(s',r|s,a) \times r \right)\\ \end{aligned}

と期待値の計算を行うことができます。第二項の計算も、1ステップ進めたあとの期待値に直すと

Eπ ⁣[Rt+1|St=s]=as,r(π(as)p(s,rs,a)×Eπ[γk=0γkRt+k+2 | St+1=s])=as,r(π(as)p(s,rs,a)×vπ(s))\begin{aligned} \mathbb{E}_{\pi}\!\left[ R_{t+1} \middle| S_t =s \right] &= \sum_{a} \sum_{s',r} \left( \pi(a|s) p(s',r|s,a) \times \mathbb{E}_{\pi} \left[\gamma \sum_{k=0}^{\infty} \gamma^{k} R_{t+k+2} \ \middle|\ S_{t+1} = s' \right] \right)\\ &= \sum_{a} \sum_{s',r} \left( \pi(a|s) p(s',r|s,a) \times v_\pi(s') \right)\\ \end{aligned}

と計算できます。これらを合わせると

vπ(s)=aπ(as)s,rp(s,rs,a)[r+γvπ(s)]\begin{aligned} v_{\pi}(s) &= \sum_{a} \pi(a \mid s)\, \sum_{s',r} p(s',r \mid s,a)\left[\, r + \gamma v_{\pi}(s') \right] \end{aligned}

として再帰的な関係式を導出することができます。この関係式が、価値関数 vπv_\pi に対するベルマン方程式(Bellman equation)です。

行動価値関数に対する導出

行動価値関数 qπ(s,a)q_\pi(s,a) に対してもベルマン方程式を導出できます。

qπ(s,a)=Eπ ⁣[GtSt=s, At=a]=Eπ ⁣[k=0γkRt+k+1 | St=s, At=a]=Eπ ⁣[Rt+1+γk=0γkRt+k+2 | St=s, At=a]=Eπ ⁣[Rt+1St=s, At=a]+γEπ ⁣[k=0γkRt+k+2 | St=s, At=a]\begin{aligned} q_{\pi}(s,a) &= \mathbb{E}_{\pi}\!\left[ G_t \mid S_t=s,\ A_t=a \right] \\ &= \mathbb{E}_{\pi}\!\left[ \sum_{k=0}^{\infty}\gamma^k R_{t+k+1}\ \middle|\ S_t=s,\ A_t=a \right] \\ &= \mathbb{E}_{\pi}\!\left[ R_{t+1} + \gamma \sum_{k=0}^{\infty}\gamma^k R_{t+k+2}\ \middle|\ S_t=s,\ A_t=a \right] \\ &= \mathbb{E}_{\pi}\!\left[ R_{t+1} \mid S_t=s,\ A_t=a \right] + \gamma\,\mathbb{E}_{\pi}\!\left[ \sum_{k=0}^{\infty}\gamma^k R_{t+k+2}\ \middle|\ S_t=s,\ A_t=a \right] \end{aligned}

第一項は

Eπ ⁣[Rt+1St=s, At=a]=s,rp(s,rs,a)r\begin{aligned} \mathbb{E}_{\pi}\!\left[ R_{t+1} \mid S_t=s,\ A_t=a \right] &= \sum_{s',r} p(s',r\mid s,a)\, r \end{aligned}

と書けます。第二項も同様に、

Eπ ⁣[k=0γkRt+k+2 | St=s, At=a]=s,rp(s,rs,a)  Eπ ⁣[k=0γkRt+k+2 | St+1=s, Rt+1=r, St=s, At=a]=s,rp(s,rs,a)  Eπ ⁣[k=0γkRt+k+2 | St+1=s]=s,rp(s,rs,a)  Eπ ⁣[Gt+1 | St+1=s]=s,rp(s,rs,a)  vπ(s)\begin{aligned} \mathbb{E}_{\pi}\!\left[ \sum_{k=0}^{\infty}\gamma^k R_{t+k+2}\ \middle|\ S_t=s,\ A_t=a \right] &= \sum_{s',r} p(s',r\mid s,a)\; \mathbb{E}_{\pi}\!\left[ \sum_{k=0}^{\infty}\gamma^k R_{t+k+2}\ \middle|\ S_{t+1}=s',\ R_{t+1}=r,\ S_t=s,\ A_t=a \right] \\ &= \sum_{s',r} p(s',r\mid s,a)\; \mathbb{E}_{\pi}\!\left[ \sum_{k=0}^{\infty}\gamma^k R_{t+k+2}\ \middle|\ S_{t+1}=s' \right] \\ &= \sum_{s',r} p(s',r\mid s,a)\; \mathbb{E}_{\pi}\!\left[ G_{t+1}\ \middle|\ S_{t+1}=s' \right] \\ &= \sum_{s',r} p(s',r\mid s,a)\; v_{\pi}(s') \end{aligned}

と書けます。これらを合わせることで、

qπ(s,a)=s,rp(s,rs,a)[r+γvπ(s)]\begin{aligned} q_{\pi}(s,a) &= \sum_{s',r} p(s',r\mid s,a)\left[ r + \gamma v_{\pi}(s') \right] \end{aligned}

と、状態価値関数に対するベルマン方程式を導出することができました。