Civilization Museum
The Dark Forest
目录
0%
8.1 价值表示:从表格到函数
8.2 基于函数近似的状态价值时序差分(TD)学习
8.2.1 目标函数
8.2.2 优化算法
8.2.3 函数近似器的选择
8.2.4 示例
8.2.5理论分析
8.2.5.1 收敛性分析
8.2.5.2 TD学习最小化投影贝尔曼误差。
最小二乘 TD
8.3 基于函数逼近的动作价值 TD 学习
8.3.1 带函数逼近的 Sarsa
8.3.2 带函数逼近的 Q-learning
8.4 Deep Q-learning
8.4.1 算法描述
8.4.2 说明性示例
8.5 高级技巧
经验回放
经验回放的优点
经验回放的局限性
优先经验回放
抽样权重
学习率调整
高估问题
自举导致偏差的传播
最大化导致高估
高估的危害
高估问题解决方法
目标网络
双Q学习算法
对决网络(DuelingNetwork)
最优优势函数
对决网络
解决不唯一性
8.5 总结
8.6 问答
0%