🪂十二、PPO算法
2025-2-14
| 2025-4-16
字数 285阅读时长 1 分钟
type
status
password
date
slug
summary
category
URL
tags
icon
PPO 基于 TRPO 的思想,但是其算法实现更加简单。并且大量的实验结果表明,与 TRPO 相比,PPO 能学习得一样好(甚至更快)。PPO 的优化目标与 TRPO 相同,但采用了一些相对简单的方法来求解,具体来说,PPO 有两种形式,一是 PPO-惩罚,二是 PPO-截断,我们接下来对这两种形式进行介绍。
  • 回忆一下 TRPO 的优化目标:
    • 假设是一个行为策略。我们的目标是利用由生成的样本,学习一个目标策略,其中参数的邻域内。借助重要性采样,得到TRPO的目标函数如下:
      💡
      无法得到,所以会使用近似。其中为优势函数

12.1 PPO-惩罚

PPO-惩罚(PPO-Penalty)用拉格朗日乘数法直接将 KL 散度的限制放进了目标函数中,这就变成了一个无约束的优化问题,在迭代的过程中不断更新 KL 散度前的系数。即:
令 , 的更新规则如下:
  1. 如果,那么
  1. 如果,那么
  1. 否则
其中,是事先设定的一个超参数,用于限制学习策略和之前一轮策略的差距。

12.3 PPO-截断

PPO 的另一种形式 PPO-截断(PPO-Clip)更加直接,它在目标函数中进行限制,以保证新的参数和旧的参数的差距不会太大,即:
因为有时候无法获得,此时我们可以使用进行近似。
其中 ,即把   限制在   内。上式中是一个超参数,表示进行截断(clip)的范围。
 
  • 强化学习
  • 十三、SAC算法十一、TRPO 算法
    Loading...