Civilization Museum
The Dark Forest
Civilization Museum
The Dark Forest
  • 目录
  • 关于
0%
8.1 价值表示:从表格到函数8.2 基于函数近似的状态价值时序差分(TD)学习8.2.1 目标函数8.2.2 优化算法8.2.3 函数近似器的选择8.2.4 示例8.2.5理论分析8.2.5.1 收敛性分析8.2.5.2 TD学习最小化投影贝尔曼误差。最小二乘 TD8.3 基于函数逼近的动作价值 TD 学习8.3.1 带函数逼近的 Sarsa8.3.2 带函数逼近的 Q-learning8.4 Deep Q-learning8.4.1 算法描述8.4.2 说明性示例8.5 高级技巧经验回放经验回放的优点经验回放的局限性优先经验回放抽样权重学习率调整高估问题自举导致偏差的传播最大化导致高估高估的危害高估问题解决方法目标网络双Q学习算法对决网络(DuelingNetwork)最优优势函数对决网络解决不唯一性8.5 总结8.6 问答
Logic
Logic
给时间以生命 给岁月以文明
191篇文章| 位访客
公告
备用网址:vabc.eu.org
 
最新发布
  • 十、Actor-Critic Methods
  • 一、强化学习概述
  • 二、状态价值与贝尔曼公式
  • 八、价值函数近似
  • 十五、模仿学习
  • 十九、离线强化学习
  • 分类
    更多
    标签
    更多
    目录
    0%
    8.1 价值表示:从表格到函数8.2 基于函数近似的状态价值时序差分(TD)学习8.2.1 目标函数8.2.2 优化算法8.2.3 函数近似器的选择8.2.4 示例8.2.5理论分析8.2.5.1 收敛性分析8.2.5.2 TD学习最小化投影贝尔曼误差。最小二乘 TD8.3 基于函数逼近的动作价值 TD 学习8.3.1 带函数逼近的 Sarsa8.3.2 带函数逼近的 Q-learning8.4 Deep Q-learning8.4.1 算法描述8.4.2 说明性示例8.5 高级技巧经验回放经验回放的优点经验回放的局限性优先经验回放抽样权重学习率调整高估问题自举导致偏差的传播最大化导致高估高估的危害高估问题解决方法目标网络双Q学习算法对决网络(DuelingNetwork)最优优势函数对决网络解决不唯一性8.5 总结8.6 问答
    0%
    2021-2026 Logic.

    Civilization Museum

    Powered by NotionNext 4.9.5.2.