🥿二十、强化学习GAE
2025-4-12
| 2025-4-15
字数 176阅读时长 1 分钟
type
status
password
date
slug
summary
category
URL
tags
icon

背景

GAE的存在是用来权衡variance和bias问题的:
  • MC算法:直接交互并用每一时刻的回报作为长期回报的估计会产生较大的方差,Variance较大。
  • TD算法:通过基于优势函数的AC方法来进行优势值估计,则会产生方差较小,而Bias较大的问题。
这就像两个极端,MC 方法方差最大,one-step TD 偏差最大,有没有一种方法,可以提供一种 trade-off,而且可以很方便的调节这种 trade-off 呢? 我们具体来看,用一些数学技巧:

优势函数

  • one-step advantage:
    • two-step advantage:
      • k-step advantage:
        • -step advantage:
          • 随着步数的增加,的比重逐渐减少,所以不准确的影响也在逐渐减少。

        GAE

      • 强化学习
      • 二十一、DPO(Direct Preference Optimization十九、离线强化学习
        Loading...