🧪LLM的损失函数
2026-5-29
| 2026-5-29
字数 324阅读时长 1 分钟
type
Post
status
Published
password
date
May 29, 2026
slug
summary
category
人工智能
URL
tags
LLM
icon

预训练

交叉熵损失函数

notion image
  • 表示类别数目,在示例中
  • 表示真实预测向量中的值(True对应的值)
  • 表示模型预测向量中的值(部分被遮挡,应为“Predict 对应的值”)

平滑标签

把硬标签 1/0 变成软标签,不让模型对正确 token 过度自信,防止模型极端化、过拟合、生成僵硬。
真实词
其他所有词
硬标签
1
0
软标签
0.9 ( = 0.9)
0.1 ( 。其中每个单词的概率是是词汇表大小)
  • :平滑系数(主流 LLM 用 );
  • :词汇表大小(多分类)或 2(二分类)。

工程化实现

💡
梯度下降只能是一个标量。所以需要对每个单词的交叉熵求和或者做平均
notion image
预训练阶段对于一个句子中的每个 token 都要计算交叉熵损失。由于数据集中每个句子的 sequence length 不一定相同,所以每个句子的损失函数将所有 input token 的交叉熵求和后,需要取平均值。
 
  • LLM
  • [论文] LLaMA 2:开放基础和微调聊天模型【论文精读】GLM
    Loading...