Civilization Museum
The Dark Forest
目录
0%
一、背景
1.1、数据集
1.2、强化学习
1.2.1、强化学习与大语言模型
1.2.2、目标函数
二、训练流程
2.1、初始化
2.2、数据集
2.2.1、文本数据
2.2.2、数据预处理
2.3、奖励
2.4、优势函数
2.5、更新Actor
2.6、更新Critic
三、奖励
3.1、奖励模型
3.1.1、网络架构
3.1.2、损失函数
3.1.3、模型选择
3.1.4、推理
3.2、KL散度
3.2.1、Actor与Ref模型
3.2.2、计算流程
3.2.3、KL散度
3.3、奖励:KL散度+reward
四、优势函数
4.1、原理
4.1.1、优势函数
4.2、GAE
4.2、应用
五、Actor模型
5.1、网络架构
5.2、损失函数
5.2.1、数据
5.2.2、损失函数
5.2.3、实现
六、critic_loss
6.1、网络架构
6.2、损失函数
6.2.1、数据
6.2.2、损失函数
6.2.3、应用
0%