Civilization Museum
The Dark Forest
目录
0%
值迭代(Value iteration)
算法原理
矩阵形式
Elementwise形式
算法推导
计算示例
Policy iteration
算法原理
矩阵形式
Elementwise form
算法推导
在策略改进步骤中,为什么比更好呢?
为什么策略迭代算法最终能够找到一个最优策略?
计算示例
Truncated policy iteration
比较价值迭代和策略迭代
Truncated policy算法
算法流程(与策略迭代更像)
算法推导
收敛性证明
Q&A
0%