type
status
password
date
slug
summary
category
URL
tags
icon
Paper:https://github.com/QwenLM/Qwen3-Embedding
https://huggingface.co/Qwen
文本嵌入是将文本转化为高维向量表示的技术,能够捕捉文本之间的语义关系,而重排序则是通过对候选文档的重新排序来提升检索结果的相关性。随着大型语言模型的兴起,文本嵌入和重排序模型的性能得到了显著提升,原因在于 LLMs 拥有更强的文本理解、生成和推理能力。然而,如何在模型规模、上下文理解和特定下游任务适配性之间取得平衡,仍然是研究的重点和难点。
Qwen3 Embedding 系列基于 Qwen3 基础模型构建,充分利用了其在多语言文本理解和生成方面的优势,提出了创新的多阶段训练流程和数据合成策略,显著提升了模型在多语言、多任务场景下的性能。报告中提到,Qwen3 Embedding 系列在包括 MTEB(Massive Text Embedding Benchmark)在内的多个基准测试中达到了最先进的性能,尤其在多语言和代码检索任务中表现突出。
模型架构

Qwen3 Embedding和Rerank模型基于 Qwen3 基础模型的密集版本构建,有三种规模可供选择:0.6B、4B 和 8B 参数。我们使用 Qwen3 基础模型对这些模型进行初始化,以利用它们在文本建模和指令遵循方面的能力。每个模型配置的模型层数、隐藏层大小和上下文长度如下

1、Embedding模型
在输入序列末尾添加 [EOS] 标记,最终嵌入向量从最后一层的 [BOS] 标记隐藏状态中提取。
1.1、数据格式
为了确保嵌入在下游任务中遵循指令,我们将指令和查询连接成一个单一的输入上下文,而文档在通过大语言模型处理之前保持不变。查询的输入格式如下:
{Instruction} {Query}<|endoftext|>
1.2、损失函数
给定一批个训练样本,损失定义为:
- :训练批次中的样本数量。
- :查询 () 和正样本文档 () 的相似性得分,采用余弦相似度(Cosine Similarity)计算。
- :温度参数,用于控制相似性分布的平滑度。
- 是归一化因子,它聚合了正样本对与各类负样本对的相似度分数:
- 正样本对:表示查询和正样本文档的相似性。
- 硬负样本:。是 个难负样本 ,通过掩码因子 调整影响。
- 批内的其他查询:,考虑批次中其他查询作为负样本。
- 批内其他文档:,考虑批次中其他正负文档对的相似性。
为了减轻假负样本(即被错误标记为负样本但实际与查询相关的样本)的影响,引入了掩码因子
其中 是 与 或 与 的相应分数。
如果负样本的相似性得分高于正样本得分加一个阈值(0.1),或负样本实际上是正样本,则将其掩码设置为 0,排除其对损失的贡献。
代码
2、Rerank模型
1.1、数据格式
与嵌入模型类似,为了具备指令遵循能力,我们在输入上下文中包含指令。我们使用大语言模型的聊天模板,并将相似性评估任务构建为一个二分类问题。输入到大语言模型的内容遵循以下模板:
<|im_start|>system Judge whether the Document meets the requirements based on the Query and the Instruct provided. Note that the answer can only be "yes" or "no".<|im_end|> <|im_start|>user <Instruct>: {Instruction} <Query>: {Query} <Document>: {Document}<|im_end|> <|im_start|>assistant <think>\n\n</think>\n\n
1.2、损失函数
- :给定查询 和文档 的输入上下文 ,模型预测标签 的概率。
- :标签,“yes”表示正样本(相关文档),“no”表示负样本(不相关文档)。
代码
1.3、评分方式
评分方式:通过计算下一个标记为“是”或“否”的概率来确定相关性得分:
模型训练
1、多阶段训练
通常先在大规模、含噪声的半监督数据上初始训练,再使用更小规模的高质量有监督数据集进行微调。Qwen3系列在此基础上引入了以下关键创新:
1.1、大规模弱监督预训练
与以往工作(如 GTE、E5、BGE 模型)主要从开源社区(如问答论坛或学术论文)收集弱监督训练数据不同,我们提出利用基础模型的文本理解和生成能力直接合成配对数据。
1.2、高质量合成数据在有监督微调中的应用
由于 Qwen3 基础模型的优异性能,合成数据质量极高。因此,在第二阶段有监督训练中,选择性纳入这些高质量合成数据可进一步提升模型整体性能和泛化能力。
1.3、模型融合
在完成有监督微调后,我们应用基于球面线性插值(slerp)的模型融合技术,融合微调过程中保存的多个模型检查点。增强模型在不同数据分布上的稳健性和泛化性能。
2、合成数据集
设计了多样化的提示策略以提升生成数据的多样性和真实性。最终,创建了 1.5 亿对多任务弱监督训练数据。并进一步筛选出高质量样本用于第二阶段有监督训练。我们通过简单的余弦相似度计算选择数据对,保留随机采样数据中余弦相似度大于 0.7 的样本。最终,约 1200 万对高质量有监督训练数据被选中用于进一步训练。