type
Post
status
Published
password
date
May 29, 2026
slug
summary
category
人工智能
URL
tags
LLM
icon
预训练
交叉熵损失函数
- 表示类别数目,在示例中
- 表示真实预测向量中的值(True对应的值)
- 表示模型预测向量中的值(部分被遮挡,应为“Predict 对应的值”)
平滑标签
把硬标签 1/0 变成软标签,不让模型对正确 token 过度自信,防止模型极端化、过拟合、生成僵硬。
ㅤ | 真实词 | 其他所有词 |
硬标签 | 1 | 0 |
软标签 | 0.9 ( = 0.9) | 0.1 ( 。其中每个单词的概率是 ,是词汇表大小) |
- :平滑系数(主流 LLM 用 );
- :词汇表大小(多分类)或 2(二分类)。
工程化实现
梯度下降只能是一个标量。所以需要对每个单词的交叉熵求和或者做平均
预训练阶段对于一个句子中的每个 token 都要计算交叉熵损失。由于数据集中每个句子的 sequence length 不一定相同,所以每个句子的损失函数将所有 input token 的交叉熵求和后,需要取平均值。