2025/11/30
行動価値関数のベルマン方程式を期待値の形で捉え直し、TD誤差の導入から Sarsa による on-policy な価値学習までを丁寧に解説します。
2025/11/25
強化学習における基本知識、価値関数について成り立つ再帰的なベルマン方程式についてをまとめています。