这章介绍的东西当初看着很多,现在回看回来其实就介绍了几个基础概念
state values
在状态 S 下, 所能取得的 return 的合,就可以简单的理解为 state value,在确定的策略下,就等于(s,a)下这action value,在stomatic下就是乘一下策略的概率分布。
Bellman Equation
⎣⎡vπ(s1)vπ(s2)vπ(s3)vπ(s4)⎦⎤=⎣⎡rπ(s1)rπ(s2)rπ(s3)rπ(s4)⎦⎤+γ⎣⎡pπ(s1∣s1)pπ(s1∣s2)pπ(s1∣s3)pπ(s1∣s4)pπ(s2∣s1)pπ(s2∣s2)pπ(s2∣s3)pπ(s2∣s4)pπ(s3∣s1)pπ(s3∣s2)pπ(s3∣s3)pπ(s3∣s4)pπ(s4∣s1)pπ(s4∣s2)pπ(s4∣s3)pπ(s4∣s4)⎦⎤⎣⎡vπ(s1)vπ(s2)vπ(s3)vπ(s4)⎦⎤
这是我觉得最直观的贝尔曼方程的向量表现形式了,虽然每个 V 都依赖其他状态的 V,但整体作为向量却可以得到一个解,体现了数学的美。