十、Actor-Critic Methods | Civilization Museum

type

status

password

date

slug

summary

10.1 The simplest actor-critic algorithm (QAC)

本节将介绍simplest actor-critic algorithm。通过对（9.32）中的策略梯度算法进行扩展，就能轻松得到该算法。

回想一下，策略梯度法的思路是通过最大化一个标量度量来寻找最优策略。用于最大化的梯度上升算法如下：

其中是状态的一种分布（更多信息见定理9.1）。由于真实梯度未知，我们可以用随机梯度来近似它：

这就是（9.32）中给出的算法。

等式（10.2）很重要，因为它清楚地展示了基于策略的方法和基于价值的方法是如何结合的。一方面，它是基于策略的算法，因为它直接更新策略参数；另一方面，该等式需要知道，它是动作价值的一个估计值。因此，需要另一个基于价值的算法来生成。到目前为止，在本书中我们已经研究了两种估计动作价值的方法，第一种基于蒙特卡洛学习，第二种基于时序差分（TD）学习。

如果是通过蒙特卡洛学习来估计的，相应的算法被称为REINFORCE（增强学习算法）或蒙特卡洛策略梯度，这在第9章中已经介绍过了。

如果是通过时序差分学习来估计的，相应的算法通常被称为Actor-Critic Methods。因此，将基于时序差分的价值估计融入策略梯度方法中，就能得到Actor-Critic Methods。

simplest actor-critic algorithm的步骤在算法10.1中进行了总结。critic对应于通过（8.35）中给出的Sarsa算法进行的价值更新步骤。动作价值由参数化函数表示。actor对应于（10.2）中的策略更新步骤。这种actor-citric algorithm有时被称为Q actor-critic (QAC)。尽管它很简单，但QAC揭示了actor-citric algorithm的核心思想。如本章其余部分所示，它可以被扩展以产生许多更高级的算法。

10.2 Advantage actor-critic (A2C)

我们现在介绍advantage actor-critic算法。该算法的核心思想是引入一个基准来减少估计方差。

10.2.1 基准不变性

策略梯度的一个有趣特性是它对于一个额外的基准是不变的。即

其中额外的基准是关于的标量函数。接下来我们回答关于这个基准的两个问题。

首先，为什么（10.3）是成立的？等式（10.3）成立当且仅当

这个等式是成立的，原因如下：

其次，为什么基准是有用的？

基准是有用的，因为当我们使用样本去近似真实梯度时，它可以减少近似方差。特别地，令

那么，真实梯度是。由于我们需要用一个随机样本来近似，如果方差较小将是有利的。例如，如果接近于零，那么任何样本都能准确地近似。相反，如果很大，一个样本的值可能会与相差甚远。

尽管对于基准是不变的，但方差并非如此。我们的目标是设计一个好的基准来使最小化。在REINFORCE和QAC算法中，我们设，这并不能保证是一个好的基准。

事实上，使最小化的最优基准是

其证明在Box 10.1中给出。

尽管（10.5）中的基准是最优的，但它过于复杂，在实际中并不实用。如果从（10.5）中去掉权重，我们可以得到一个具有简洁表达式的次优基准：

有趣的是，这个次优基准是状态值。

Box 10.1：证明（10.5）中的是最优基准
令，它对于任何都是不变的。如果是一个向量，其方差是一个矩阵。通常选择的迹作为用于优化的标量目标函数：
在推导上述等式时，对于任意具有合适维度的方阵、，我们使用了迹的性质。由于是不变的，等式（10.6）表明我们只需要最小化。根据（10.4）中对的定义，我们有
其中简写成。由于且，上述等式可以重写为
为确保，对于任意，应满足
上述方程很容易求解，从而得到最优基准：
关于策略梯度方法中最优基准的更多讨论可在[69, 70]中找到。

10.2.2 算法描述

当时，式（10.1）中的梯度上升算法变为：

这里

被称为优势函数，它反映了一个动作相对于其他动作的优势。更具体地说，注意到是动作值的均值。如果，这意味着相应的动作具有比均值更大的值。式（10.7）的随机版本为：

其中是时刻时状态 - 动作对的样本。此处，和分别是与的近似值。式（10.8）中的算法依据相对于的相对值，而非的绝对值来更新策略。这在直觉上是合理的，因为当我们尝试在某个状态下选择一个动作时，我们只关心相对于其他动作而言，哪个动作具有最大的值。

如果和是通过蒙特卡罗学习进行估计的，那么（10.8）中的算法被称为带基线的REINFORCE算法。如果和是通过时序差分（TD）学习来估计的，该算法通常被称为优势演员 - 评论家算法（A2C）。A2C的实现总结在算法10.2中。应当注意的是，在这个实现中，优势函数是通过TD误差来近似的：

这种近似是合理的，原因是

由于的定义，这种近似是合理的。使用时序差分（TD）误差的一个优点在于，我们只需使用单个神经网络来表示。否则，如果，我们就需要分别维护两个网络来表示和。当我们使用TD误差时，该算法也可称为TD演员 - 评论家算法。此外，值得注意的是，策略是随机的，因而具有探索性。所以，它无需依赖诸如- 贪婪等技术，就能直接用于生成经验样本。优势演员 - 评论家算法（A2C）还有一些变体，比如异步优势演员 - 评论家算法（A3C）。感兴趣的读者可查阅文献 [71, 72]。

💡

对抗网络输出结果是动作价值函数；A2C模型输出结果是优势函数。

10.3 Off-policy actor-critic

到目前为止我们所研究的策略梯度方法，包括REINFORCE、QAC以及A2C，均属于同策略算法。从真实梯度的表达式中可以看出其原因：

要使用样本逼近这一真实梯度，我们必须依据生成动作样本。因此，就是行为策略。鉴于同样也是我们力求改进的目标策略，所以策略梯度方法属于同策略方法。

倘若我们已然拥有由给定行为策略生成的一些样本，策略梯度方法依旧能够用于利用这些样本。要做到这一点，我们可以采用一种名为重要性采样的技术。值得一提的是，重要性采样技术并不局限于强化学习领域。它是一种通用技术，用于借助从另一个分布中抽取的样本，来估算在某一概率分布上定义的期望值。

10.3.1 Importance sampling

接下来我们介绍重要性采样技术。考虑一个随机变量。假设是一个概率分布。我们的目标是估计。假设我们有一些独立同分布的样本。

首先，如果样本是按照生成的，那么平均值可用于近似，因为是的无偏估计，并且随着，估计方差收敛到零（更多信息见5.1节中的大数定律）。

其次，考虑一种新情况，即样本不是由生成的，而是由另一个分布生成的。我们还能用这些样本近似吗？答案是肯定的。然而，我们不能再用来近似了，因为，而不是。

在第二种情形下，基于重要性采样技术，可以对进行近似。具体而言，满足

因此，估计就变成了估计的问题。令

由于能够有效地近似，那么根据式（10.9）可得

式（10.10）表明，可以通过的加权平均值来近似。这里，被称为重要性权重。当时，重要性权重为 1，就变成了。当时，由采样的频率会更高，而由采样的频率较低。在这种情况下，大于的重要性权重突出了该样本的重要性。一些读者可能会提出以下问题：既然式（10.10）中需要，那为什么我们不直接根据其定义来计算呢？答案如下。要使用这个定义，我们要么需要知道的解析表达式，要么需要知道对于每个的的值。然而，当分布由例如神经网络表示时，很难得到的解析表达式。当的规模很大时，要得到每个的的值也很困难。相比之下，式（10.10）只需要一些样本的的值，在实际中更容易实现。

一个说明性示例

接下来我们给出一个示例来展示重要性采样技术。考虑。假设是一个满足以下条件的概率分布：

关于的期望为：

假设是另一个分布，满足：

关于的期望为：

假设我们有一些从中抽取的样本。我们的目标是利用这些样本估计。如图10.2所示，值为 + 1的样本比值为-1的样本更多。这是因为。如果我们直接计算样本的平均值，这个值会收敛到（见图10.2中的虚线）。相比之下，如果我们按照式（10.10）计算加权平均值，这个值能够成功收敛到（见图10.2中的实线）。

最后，用于生成样本的分布必须满足，当时，。如果而，估计结果可能会有问题。例如，如果

那么由生成的样本全是正值：。这些样本无法正确估计，因为无论有多大，

无论有多大

10.3.2 The off-policy policy gradient theorem

借助重要性采样技术，我们准备阐述异策略策略梯度定理。假设是一个行为策略。我们的目标是利用由生成的样本，学习一个目标策略，该目标策略能使以下度量最大化：

其中是策略下的平稳分布，是策略下的状态价值。此度量的梯度由以下定理给出。

💡

定理10.1（O-policy policy gradient theorem）:在折扣因子的折扣情形下，的梯度为：

其中状态分布为：

其中，是在策略下从状态转移到状态的折扣总概率。

式（10.11）中的梯度与定理9.1中同策略情形下的梯度相似，但存在两点不同。第一个不同在于重要性权重。第二个不同是使用而非。因此，我们可以通过遵循生成的动作样本来近似真实梯度。该定理的证明见方框10.2 。

Box 10.2: 定理10.1的证明
由于与无关，的梯度满足
根据引理9.2 ，的表达式为

其中，。将（10.13）代入（10.12）可得。
通过使用重要性采样技术，上述等式可以进一步改写为
证明完毕。上述证明与定理9.1的证明类似。

10.3.3 算法描述

off-policy policy gradient定理，我们准备介绍off-policy actor-critic算法。由于off-policy与on-policy非常相似，我们仅介绍一些关键步骤。

首先，off-policy梯度对于任何额外的基线都具有不变性。特别地，我们有

这是因为。为了降低估计方差，我们可以选择基线为，进而得到

相应的随机梯度上升算法为

其中。与同策略情形类似，优势函数可以用时间差分（TD）误差来代替。即

那么，该算法就变为

off-policy actor-critic算法的实现总结在算法10.3中。可以看出，该算法与advantage actor-critic算法相同，只是在critic和actor部分都加入了一个额外的重要性权重。必须注意的是，除了actor部分，通过重要性采样技术，critic部分也从on-policy转变为off-policy。实际上，重要性采样是一种通用技术，可应用于基于策略和基于价值的算法。最后，算法10.3可以通过多种方式扩展，以融入更多技术，如eligibility traces[73]。

10.4 Deterministic actor-critic

到目前为止，策略梯度方法中使用的策略都是随机的，因为要求对于每一个（状态 - 动作）对，都有。本节将表明，确定性策略同样可用于策略梯度方法。在此，确定性意味着对于任意状态，某一个动作被赋予概率为1，而其他所有动作的概率均为0。研究确定性情形很重要，因为它本质上属于off-policy，并且能够有效地处理连续动作空间。

我们一直使用来表示一个通用策略，它既可以是随机的，也可以是确定性的。在本节中，我们使用

来专门表示确定性策略。与给出动作概率的不同，直接给出动作，因为它是从状态空间到动作空间的映射。例如，这个确定性策略可以用一个神经网络来表示，该网络以状态作为输入，动作作为输出，作为参数。为了简便起见，我们通常将简写成。

10.4.1 The deterministic policy gradient theorem

上一章介绍的策略梯度定理仅适用于随机策略。当我们要求策略为确定性策略时，必须推导出一个新的策略梯度定理。

💡

定理10.2（确定性策略梯度定理）。的梯度为

其中，是状态的一种分布。

定理10.2是对定理10.3和定理10.4中所呈现结果的总结，因为这两个定理中的梯度表达式相似。和的具体表达式可在定理10.3和10.4中找到。

与随机策略的情况不同，式（10.14）中所示的确定性策略情况下的梯度不涉及动作随机变量。因此，当我们使用样本近似真实梯度时，无需对动作进行采样。所以，确定性策略梯度方法属于off-polisy。此外，一些读者可能会疑惑，为什么不能写成，后者看起来更简洁。原因很简单，如果这样写，就不清楚如何作为关于的函数。一个既简洁又不易混淆的表达式可以是。

在本小节的其余部分，我们将给出定理10.2的推导细节。具体来说，我们将推导两个常见度量的梯度：第一个是Average value，第二个是average reward。由于这两个度量在9.2节中已详细讨论过，我们有时会直接使用它们的性质而不加以证明。对于大多数读者而言，熟悉定理10.2而无需了解其推导细节就足够了。感兴趣的读者可以有选择地查看本节其余部分的细节。

Metric 1: Average value

我们首先推导平均价值的梯度：

其中是状态的概率分布。为简化起见，这里选择与无关。选择有两种特殊但很重要的情况。第一种情况是且，其中是某个特定关注的状态。在这种情况下，策略旨在最大化从开始时能获得的折扣回报。第二种情况是是给定行为策略的分布，且该行为策略与目标策略不同。

为了计算的梯度，我们需要首先计算对于任意，的梯度。考虑折扣情况，其中。

💡

引理10.1（的梯度）。在折扣情形下，对于任意的，有

其中

是在策略下从状态转移到状态的折扣总概率。这里，表示矩阵中第行第列的元素。

Box 10.3: Proof of Lemma 10.1
由于策略是确定性的，我们有
因为和都是的函数，所以
根据动作价值的定义，对于任意给定的，我们有
其中。由于与无关，所以
将上述等式代入（10.17），可得
由于上述等式对所有都成立，我们可以将这些等式组合起来，得到矩阵 - 向量形式：
其中（的元素个数），是的维度，是状态转移矩阵，且，是克罗内克积。上述矩阵 - 向量形式可以简洁地写为
这是一个关于的线性方程。那么，可以求解为：
（10.18）的逐元素形式为：
这个量有明确的概率解释。由于，我们有
注意，是恰好经过步从转移到的概率（更多信息见专栏8.1）。因此，是经过任意步数从转移到的折扣总概率。通过记，方程（10.19）就得到了（10.16）。

有了引理10.1的铺垫，我们现在可以推导的梯度了。

💡

定理10.3（Deterministic policy gradient theorem in the discounted case）。在的折扣情形下，式（10.15）中的梯度为：

其中状态分布为：

这里，是在策略下从状态转移到状态的折扣总概率。

Box 10.4: Proof of Theorem 10.3
由于与无关，我们有
将引理10.1给出的的表达式代入上述等式，可得
证明完毕。上述证明与文献[74]中定理1的证明一致。在此，我们考虑的是状态和行动为有限的情况。当状态和行动为连续时，证明过程类似，但求和需替换为积分[74] 。

Metric 2: Average reward

接下来我们推导平均奖励的梯度。

其中

它是即时奖励的期望值。关于这个度量的更多信息可以在9.2节中找到。

的梯度由以下定理给出。

💡

Theorem 10.4 (Deterministic policy gradient theorem in the undiscounted case). 在无折扣的情况下，（10.20）式中的梯度为

其中是在策略下状态的平稳分布。

Box 10.5: Proof of Theorem 10.4 由于该策略是确定性的，我们有
因为和都是的函数，所以
在无折扣的情况下，根据动作价值的定义（9.3.2节）可得
由于与无关，我们有
将上述等式代入（10.21）可得
由于上述等式对所有都成立，我们可以将这些等式组合起来，得到矩阵 - 向量形式：
其中（的元素数量），是的维度，是状态转移矩阵，其元素，是克罗内克积。上述矩阵 - 向量形式可以简洁地写为
因此
由于是平稳分布，我们有。在（10.22）两边同时左乘可得
由于，上述等式变为：
证明完毕。

10.4.2 Algorithm description

基于定理10.2中给出的梯度，我们可以应用梯度上升算法来最大化：

相应的随机梯度上升算法为：

具体实现总结在算法10.4中。需要注意的是，该算法是off - policy的，因为行为策略可能与不同。首先，actor是off - policy。我们在阐述定理10.2时已经解释了原因。其次，critic也是off - policy。必须特别注意为什么critic是off - policy，但却不需要重要性采样技术。具体而言，critic所需的经验样本是，其中。这个经验样本的生成涉及两种策略。第一种是在状态生成的策略，第二种是在状态生成的策略。生成的第一种策略是行为策略，因为用于与环境进行交互。第二种策略必须是，因为它是评判者旨在评估的策略。因此，是目标策略。应该注意的是，在下一个时间步不用于与环境交互。因此，不是行为策略。所以，评判者是离策略的。

如何选择函数呢？提出确定性策略梯度方法的原始研究工作[74]采用了线性函数：，其中是特征向量。目前，正如深度确定性策略梯度（DDPG）方法[75]所建议的，使用神经网络来表示很流行。

如何选择行为策略呢？它可以是任何探索性策略。它也可以是通过向添加噪声而获得的随机策略[75]。在这种情况下，也是行为策略，因此这种方式是一种同策略（on - policy）实现。

10.5 Deep Deterministic actor-critic

我们可以将深度神经网络集成到 DPG 中，从而得到DDPG。DDPG可以被看作是（10.14）的扩展，DDPG因为使用深度网络，所以DDPG引入了DQN(Deep Q Learning)中的两个技术：主网络域目标网络、经验回放。

主网络与目标网络

Critic

一个是表示的主网络，另一个是目标网络；主网络的一直在更新，目标网络的每隔一段时间更新根据主网络跟新一次。

💡

DQN中目标网络使用硬更新，DDPG采用软更新。

主网络更新公式：更具时序差分算法得到主网络的更新公式如下所示

目标网络更新公式：使用软更新的方式，让目标网络缓慢更新，逐渐接近主网络

Actor

DQN没有Actor网络，但是DDPG包含Actor网络。DDPG使用两个Actor网络，其Actor目标网络主要用来计算Critic目标网络的Q值。

经验回放

我们收集了一些经验样本，存储在回放缓冲区。每次我们更新主网络时，我们可以从回放缓冲区中随机抽取一个小批量的经验样本。这称为经验回放，应该遵循均匀分布。

详情请见、

环境探索

在DDPG算法中，由于策略是确定性的，这意味着对于给定的状态，策略总是产生相同的行动。这种确定性行为虽然在收敛到最优策略后非常有效，但在学习初期可能限制了智能体的探索范围。智能体可能会忽视那些初看不理想，但实际上可能更好的行动选择。为了让DDPG策略能够更好地探索，可以在行动输出上加上一些随机噪音从而进行探索。具体如下所示

然而，随机噪音有时候的过大或过小，可能导致行动超出环境允许的边界。因此，在DDPG的算法中，采用了Clip操作，事先规定了通过策略网络输出的行动加上一个上界和一个下界。

算法流程

随机噪声可以用来表示，用随机的网络参数和分别初始化 Critic 网络和 Actor 网络复制相同的参数和，分别初始化目标网络和初始化经验回放池 for 序列 do : 初始化随机过程用于动作探索获取环境初始状态 for 时间步 do : 根据当前策略和噪声选择动作：

执行动作，获得奖励，环境状态变为将存储进回放池从中采样个元组对每个元组，用目标网络计算。这一步使用的是 。DQN中使用的是 最小化目标损失，以此更新当前 Critic 网络计算采样的策略梯度，以此更新当前 Actor 网络：

更新目标网络：

end for end for

10.6 双延时确定策略梯度(TD3)

由于存在等问题，DPG实际运行的效果并不好。本节介绍的 Twin Delayed Deep Deterministic Policy Gradient (TD3）可以大幅提升算法的表现，把策略网络和价值网络训练得更好。注意，本节只是改进训练用的算法，并不改变神经网络的结构。

自举导致偏差的传播

最大化问题与不同；DPG的最大化由导致，因为本身是一个最大化过程。

10.6.1 高估问题的解决方案

目标网络(解决方案一)

为了解决自举导致偏差的传播和，我们需要使用标网络（Target Networks)计算TD目标。训练中需要两个目标网络:

它们与价值网络、策略网络的结构完全相同，但是参数不同。TD目标是用目标网络算的：

把作为目标，更新，鼓励接近。这种方法可以在一定程度上缓解高估，但是实验表明高估仍然很严重。

截断双Q学习（clippeddoubleQ-learning 解决方案二）

这种方法使用两个价值网络和一个策略网络。三个神经网络各对应一个目标网络：

用目标策略网络计算动作：

用两个目标价值网络计算：

取两者较小者为TD目标：

其他改进方法

可以在截断双Q学习算法的基础上做两处小的改进，进一步提升算法的表现。两种改进分别是往动作中加噪声、减小更新策略网络和目标网络的频率。

往动作中加噪声

上一小节中截断双 Q 学习用目标策略网络计算动作：。把这一步改成：

公式中的是个随机向量，表示噪声，它的每一个元素独立随机从截断正态分布（clipped normal distribution）中抽取。

减小更新策略网络和目标网络的频率

Actor-critic用价值网络来指导策略网络的更新。如果价值网络本身不可靠，那么用价值网络给动作打的分数是不准确的，无助于改进策略网络。在价值网络q还很差的时候就急于更新，非但不能改进，反而会由于的变化导致的训练不稳定。

💡

实验表明，应当让策略网络以及三个目标网络的更新慢于价值网络。我们每一轮更新一次价值网络，但是每隔轮更新一次策略网络和三个目标网络。是超参数，需要调。

训练流程

TD3 与DPG都属于off-policy，可以用任意的行为策略收集经验，事后做经验回放训练策略网络和价值网络。收集经验的方式与原始的训练算法相同，用与环境交互，把观测到的四元组存入经验回放数组。

初始的时候，策略网络和价值网络的参数都是随机的。这样初始化目标网络的参数：

训练策略网络和价值网络的时候，每次从数组中随机抽取一个四元组，记作。用下标now表示神经网络当前的参数，用下标new表示更新后的参数。然后执行下面的步骤，更新价值网络、策略网络、目标网络。

让目标策略网络做预测：。其中向量的每个元素都独立从截断正态分布中抽取。

让两个目标价值网络做预测：

计算TD目标：

让两个价值网络做预测：

计算TD误差：

更新价值网络：

每隔k轮更新一次策略网络和三个目标网络：

让策略网络做预测：。然后更新策略网络

更新目标网络的参数：

总结

在本章中，我们介绍了actor - critic方法。内容总结如下：

10.1节介绍了最简单的actor - critic算法，称为QAC。该算法与上一章介绍的策略梯度算法REINFORCE类似。唯一的区别在于，QAC中的Q值估计依赖于时间差分（TD）学习，而REINFORCE依赖于蒙特卡罗估计。

10.2节将QAC扩展为Advantage actor-critic算法。文中表明，策略梯度对于任何额外的基线都是不变的。接着指出，一个最优基线有助于降低估计方差。

10.3节进一步将Advantage actor-critic算法扩展到off - policy情形。为此，我们引入了一种重要的技术，称为重要性采样。

最后，尽管之前介绍的所有策略梯度算法都依赖于随机策略，但我们在10.4节表明，策略可以被设定为确定性的。文中推导了相应的梯度，并介绍了Deterministic actor-critic算法。

策略梯度和actor - critic方法在现代强化学习中应用广泛。文献中有大量先进算法，如SAC[76,77]、TRPO[78]、PPO[79]以及TD3[80]。此外，单智能体的情况还能扩展到多智能体强化学习[81 - 85]。经验样本也可用于拟合系统模型，以实现基于模型的强化学习[15,86,87]。分布强化学习提供了与传统方法截然不同的视角[88,89]。强化学习与控制理论之间的关系在[90 - 95]中有所探讨。本书无法涵盖所有这些主题。希望本书奠定的基础能帮助读者在未来更好地学习它们。

问答

问：actor - critic方法与策略梯度方法之间有什么关系？答：actor - critic方法实际上就是策略梯度方法。有时，我们会互换使用这两个概念。在任何策略梯度算法中，都需要估计动作价值。当使用带有价值函数近似的时间差分学习来估计动作价值时，这样的策略梯度算法就被称为actor - critic算法。actor - critic这个名称突出了其算法结构，它结合了策略更新和价值更新这两个部分。这种结构也是所有强化学习算法所使用的基本结构。

问：为什么在actor - critic方法中引入额外的基线很重要？答：由于策略梯度对于任何额外的基线都是不变的，我们可以利用基线来降低估计方差。由此产生的算法被称为Advantage actor-critic算法。

问：重要性采样除了在基于策略的算法中使用，还能在基于价值的算法中使用吗？答：答案是肯定的。这是因为重要性采样是一种通用技术，用于利用从另一个分布中抽取的一些样本，来估计某个随机变量在一个分布上的期望。这种技术在强化学习中有用的原因是，强化学习中的许多问题都是关于估计期望的。例如，在基于价值的方法中，动作价值或状态价值被定义为期望。在策略梯度方法中，真实梯度也是一个期望。因此，重要性采样可以应用于基于价值和基于策略的算法。实际上，它已经在算法10.3基于价值的部分中得到了应用。

问：为什么确定性策略梯度方法是离策略的？答：在确定性情况下，真实梯度不涉及动作随机变量。因此，当我们使用样本近似真实梯度时，不需要对动作进行采样，所以可以使用任何策略。因此，确定性策略梯度方法是离策略的。