Civilization Museum
The Dark Forest
Civilization Museum
The Dark Forest
  • 目录
  • 关于
0%
一、背景1.1、数据集1.2、强化学习1.2.1、强化学习与大语言模型1.2.2、目标函数二、训练流程2.1、初始化2.2、数据集2.2.1、文本数据2.2.2、数据预处理2.3、奖励2.4、优势函数2.5、更新Actor2.6、更新Critic三、奖励3.1、奖励模型3.1.1、网络架构3.1.2、损失函数3.1.3、模型选择3.1.4、推理3.2、KL散度3.2.1、Actor与Ref模型3.2.2、计算流程3.2.3、KL散度3.3、奖励:KL散度+reward四、优势函数4.1、原理4.1.1、优势函数4.2、GAE4.2、应用五、Actor模型5.1、网络架构5.2、损失函数5.2.1、数据5.2.2、损失函数5.2.3、实现六、critic_loss6.1、网络架构6.2、损失函数6.2.1、数据6.2.2、损失函数6.2.3、应用
Logic
Logic
给时间以生命 给岁月以文明
191篇文章| 位访客
公告
备用网址:vabc.eu.org
 
最新发布
  • 【论文精读】DeepSeek-V2
  • 一、强化学习概述
  • 七、时序差分算法
  • 二、状态价值与贝尔曼公式
  • 三、最优状态价值与贝尔曼最优性方程
  • OpenAI API 使用指南
  • 分类
    更多
    标签
    更多
    目录
    0%
    一、背景1.1、数据集1.2、强化学习1.2.1、强化学习与大语言模型1.2.2、目标函数二、训练流程2.1、初始化2.2、数据集2.2.1、文本数据2.2.2、数据预处理2.3、奖励2.4、优势函数2.5、更新Actor2.6、更新Critic三、奖励3.1、奖励模型3.1.1、网络架构3.1.2、损失函数3.1.3、模型选择3.1.4、推理3.2、KL散度3.2.1、Actor与Ref模型3.2.2、计算流程3.2.3、KL散度3.3、奖励:KL散度+reward四、优势函数4.1、原理4.1.1、优势函数4.2、GAE4.2、应用五、Actor模型5.1、网络架构5.2、损失函数5.2.1、数据5.2.2、损失函数5.2.3、实现六、critic_loss6.1、网络架构6.2、损失函数6.2.1、数据6.2.2、损失函数6.2.3、应用
    0%
    2021-2026 Logic.

    Civilization Museum

    Powered by NotionNext 4.9.5.2.