【论文精读】Qwen-Audio | Civilization Museum

type

status

password

date

slug

summary

摘要

目前缺乏可处理多种音频类型与任务的预训练音频模型。本文中，我们研发了Qwen-Audio模型，并通过扩大音频-语言预训练规模（覆盖30余项任务及多种音频类型，如人类语音、自然声音、音乐、歌曲等）来解决这一局限，以实现通用音频理解能力。但直接对所有任务和数据集进行联合训练会引发干扰问题——由于不同数据集的任务重点、语言、标注粒度及文本结构存在差异，其对应的文本标签也呈现出显著多样性。为解决这种“一对多”干扰，我们精心设计了一种多任务训练框架：通过向解码器输入一系列层级标签，分别借助共享标签与特定标签实现知识共享、避免干扰。值得注意的是，Qwen-Audio在无需任何任务特定微调的情况下，在各类基准任务上均取得了优异性能，超越了同类模型。基于Qwen-Audio的能力，我们进一步研发了Qwen-Audio-Chat，该模型支持多种音频与文本输入，可实现多轮对话，并能适配各类以音频为核心的场景。

1 引言

现有指令遵循相关研究主要依托大型（多模态）大语言模型的能力，通过轻量级监督微调激活模型的能力以对齐用户意图。但由于缺乏可处理多种音频类型与任务的预训练音频-语言模型，多数研究在音频交互能力上存在局限。现有的代表性音频-语言多任务模型（如SpeechNet、SpeechT5、VIOLA、Whisper）仅能处理特定类型的音频（如人类语音或自然声音）。

Qwen-Audio是一种基于音频与文本输入的多任务语言模型，它以Qwen-7B语言模型为基础，通过接入单个音频编码器，使其能够有效感知音频信号。并且涵盖30余项任务、8种语言及多种音频类型的数十个数据集，以提升通用音频理解能力。

多任务、多数据集联合训练面临的一大挑战是：不同数据集的文本标签存在显著差异。这种差异源于任务目标、语言、标注粒度及文本结构（结构化或非结构化）的不同。为解决这种“一对多”问题，我们设计了一种多任务训练框架——让解码器以一系列层级标签为条件进行训练。该设计通过共享标签促进知识共享，通过特定标签减少干扰。此外，我们还引入了带词级时间戳预测的语音识别（SRWT）任务进行训练，而该任务在以往多任务学习研究中常被忽略。实验发现，该任务不仅能提升语音信号之外（如自然声音、音乐）的定位任务及基于定位的问答任务性能，还能改善自动语音识别（ASR）效果。

如图1所示，大量实验表明，Qwen-Audio在无需任何任务特定微调的情况下，在各类任务上的性能均优于以往多任务训练模型。其显著成果之一是在Aishell1、CochlScene、ClothoAQA和VocalSound测试集上取得了当前最优（SOTA）性能。依托Qwen-Audio的能力，我们通过监督指令微调研发了Qwen-Audio-Chat，该模型支持多轮对话中音频与文本模态的灵活输入，可实现符合人类指令的高效交互。

本文的贡献总结如下：

提出Qwen-Audio——一种基础多任务音频-语言模型，支持多种任务、语言与音频类型，可作为通用音频理解模型。基于Qwen-Audio，通过指令微调研发了Qwen-Audio-Chat，实现了多轮对话，并支持各类以音频为导向的场景。Qwen-Audio与Qwen-Audio-Chat均已开源，旨在推动音频-文本多模态社区的发展。

为扩大音频-语言预训练规模，针对不同数据集文本标签差异的挑战，提出多任务训练框架，实现知识共享并避免“一对多”干扰。我们的模型涵盖30余项任务，大量实验证明其性能优异。

为推动音频-语言预训练，证实引入在音频多模态研究社区中常被忽略的SRWT任务，不仅能提升语音信号之外的定位任务及基于定位的问答任务性能，还能改善ASR效果。

实验结果表明，Qwen-Audio在无需任何任务特定微调的情况下，在各类基准任务上表现出色，超越同类模型。具体而言，其在Aishell1、CochlScene、ClothoAQA和VocalSound测试集上取得了当前最优结果。

2 相关工作

2.1 多任务音频-文本学习

多任务训练的目标是通过统一的模型架构与数据格式，实现不同任务间的知识迁移。在音频处理领域，由于音频信号类型多样（如人类语音、自然声音、音乐、歌曲）且标注格式差异大，统一所有音频处理任务具有挑战性。

以往研究多聚焦于语音识别、翻译等人类语音处理任务，忽略了自然声音、音乐等其他音频类型。Pengi则专注于自然声音理解任务，将这些任务转化为文本生成任务：通过文本模板统一数据格式，再基于Transformer解码器模型训练所有任务。

本文中，Qwen-Audio通过引入统一学习框架，整合了人类语音、自然声音、音乐、歌曲等多种音频类型，并实现了异质数据来源、不同标注粒度数据集的联合训练。联合训练完成后，该模型具备全面的语音感知、理解与识别能力，无需额外的任务特定架构扩展。

2.2 多模态与大语言模型交互

在音频模态方面，已有研究尝试将训练良好的音频基础模型作为工具，同时将大语言模型作为通用接口。然而，这类方法无法保留人类语音中的韵律、情感等关键信息，且在部分情况下无法转换自然声音等非文本音频。因此，大语言模型向语音模态的知识迁移存在障碍，且大语言模型缺乏感知与理解音频信号的能力。

本文中，Qwen-Audio旨在训练一种统一的音频-文本多任务多语言大语言模型，使其既能感知并理解音频输入，又能保留文本对话能力。Qwen-Audio采用单个编码器处理所有音频，通过大规模端到端训练弥合音频与文本模态的差距，支持自然声音检测、人类语音识别与定位、音频描述等多种任务。实验表明，该模型在各类任务上的性能均优于以往研究。

3 方法

本节详细介绍Qwen-Audio与Qwen-Audio-Chat的设计——二者分别面向通用音频理解与基于人类指令的灵活交互。3.1节首先介绍两种模型的架构；模型训练分为“多任务预训练”与“监督微调”两个阶段，3.2节阐述Qwen-Audio的多任务训练过程，3.3节介绍通过监督微调得到Qwen-Audio-Chat的过程（该模型支持灵活的人机交互）。

3.1 模型架构

Qwen-Audio系列模型的架构如图3所示，包含音频编码器与大语言模型两部分。给定配对数据（其中表示音频序列，表示文本序列），训练目标是在音频表征与前序文本序列的条件下，最大化下一个文本token的概率，公式如下：

其中与分别表示大语言模型与音频编码器的可训练参数。

3.1.1 音频编码器

Qwen-Audio采用单个音频编码器处理多种类型的音频，该编码器基于Whisper-large-v2模型的编码器进行初始化。Whisper-large-v2是一个32层Transformer模型，包含两个卷积下采样层作为基础结构，参数规模为6.4亿。尽管Whisper是为语音识别与翻译任务训练的监督模型，但其编码表征仍包含丰富信息（如背景噪声），甚至可用于恢复原始语音。

音频数据预处理流程如下：Whisper首先将音频重采样至16kHz，再通过25ms窗长、10ms步长的窗口将原始波形转换为80通道梅尔频谱图；此外，还引入步长为2的池化层以缩短音频表征长度，最终编码器输出的每个帧约对应原始音频信号的40ms片段。训练时，采用SpecAugment（Park等人）作为数据增强手段。

3.1.2 大语言模型

Qwen-Audio以大语言模型为基础组件，其初始权重来源于Qwen-7B（Bai等人，2023a）。Qwen-7B是一个32层Transformer解码器模型，隐藏层维度为4096，总参数规模为77亿。

3.2 多任务预训练

Qwen-Audio旨在通过多种音频数据集的联合训练，联合训练中任务间可相互受益：1）相似任务可通过知识共享与协同学习获益（它们均聚焦于音频信号中的基础信息）；2）依赖低阶感知能力的任务可辅助需要高阶理解或推理能力的任务。

3.2.1 多任务训练格式框架

Whisper通过向语言解码器输入一系列包含任务与条件信息的特殊token（如语音活动检测、语言识别、句子级时间戳标签），进行联合训练，受Whisper启发，为整合多种音频类型，我们提出如下多任务训练格式框架：

转录标签（Transcription Tag）：用转录标签标记预测的起始。对于需要准确转录语音内容的任务（如语音识别、语音翻译），采用<|startoftranscripts|>标签；对于其他任务，则采用<|startofanalysis|>标签。

音频语言标签（Audio Language Tag）：引入语言标签标识音频中的语音语言，为训练集中的8种语言分别分配唯一token；对于不含语音的音频（如自然声音、音乐），训练模型预测<|unknown|>token。

任务标签（Task Tag）：后续token用于指定任务，将收集的音频任务分为5类，对应标签分别为<|transcribe|>（转录）、<|translate|>（翻译）、<|caption|>（描述）、<|analysis|>（分析）、<|question-answer|>（问答）；对于问答任务，在标签后附加相应问题。

文本语言标签（Text Language Tag）：该标签token指定输出文本序列的语言。

时间戳标签（Timestamps Tag）：<|timestamps|>或<|notimestamps|>token用于控制模型是否需要预测时间戳。与Whisper采用的句子级时间戳不同，<|timestamps|>标签要求模型进行细粒度的词级时间戳预测（即SRWT任务，带词级时间戳的语音识别）。时间戳预测与转录文本交织进行：每个转录token前预测起始时间token，后预测结束时间token。实验表明，SRWT任务可提升模型将音频信号与时间戳对齐的能力，进而促进语音识别、音频问答等多项任务性能的提升。

输出指令（Output Instruction）：最后，提供输出指令以进一步明确子任务及所需格式，随后开始输出文本。

该框架的设计原则是：通过共享标签最大化相似任务间的知识共享（以提升性能），同时明确区分不同任务与输出格式（以避免模型面临“一对多”映射问题）。Qwen-Audio多任务格式的整体概况如图3所示。

3.3 监督微调

多任务模型的大规模预训练使其具备了广泛的音频理解能力。在此基础上，我们通过基于指令的微调技术，提升模型与人类意图的对齐能力，最终得到交互式对话模型Qwen-Audio-Chat。具体步骤如下：

构建演示数据集：为每个任务手动创建演示样本，包含原始文本标签、问题与答案。

扩展数据集：利用GPT-3.5（OpenAI，2022），基于原始文本标签生成更多问题与答案。

构建音频对话数据集：通过人工标注、模型生成与策略拼接，构建音频对话数据集，以赋予模型推理、故事生成与多音频理解能力。

为有效处理多音频对话与多音频输入，我们引入“Audio id:”标记规则——用“id”对应音频在输入对话中的顺序。在对话格式上，采用ChatML（OpenAI）格式构建指令微调数据集，每个交互语句用两个特殊token（<im_start>与<im_end>）标记，以实现对话终止识别。

为支持多轮对话中音频与纯文本模态的灵活输入，训练过程中同时使用上述以音频为核心的指令数据与纯文本指令数据，使模型能无缝处理多种输入形式。指令微调数据总量为2万条。

4 实验

4.1 实验设置

多任务预训练阶段：冻结大语言模型权重，仅优化音频编码器，得到的模型即为Qwen-Audio。

监督微调阶段：固定音频编码器权重，仅优化大语言模型，得到的模型即为Qwen-Audio-Chat。

两阶段的详细训练配置如表6所示。

4.2 评估方案

为评估Qwen-Audio的通用理解能力，我们设计了全面的评估方案（如表2所示），涵盖自动语音识别（ASR）、语音到文本翻译（S2TT）、自动音频描述（AAC）、声学场景分类（ASC）、语音情感识别（SER）、音频问答（AQA）、人声分类（VSC）、音乐音符分析（MNA）8类任务，涉及12个数据集。

监督微调数据格式示例：

4.3 主要结果

首先分析其英文自动语音识别（ASR）结果：Qwen-Audio的性能优于以往多任务学习模型，在Librispeech测试集的“clean”子集与“other”子集上，词错误率（WER）分别达到2.0%与4.2%。在中文普通话ASR任务中，Qwen-Audio同样展现出竞争力，据我们所知，其在Aishell1开发集与测试集上取得了当前最优结果。

其次评估Qwen-Audio在CoVoST2数据集上的语音翻译（S2TT）性能：结果显示，在所有7个翻译方向上，Qwen-Audio均以显著优势超越基线模型。

最后分析Qwen-Audio在音频分析类任务（AAC、SRWT、ASC、SER、AQA、VSC、MNA）上的性能（如表3所示）：在这些任务中，Qwen-Audio均大幅优于基线模型，尤其在CochlScene、ClothoAQA与VocalSound数据集上取得当前最优结果，充分证明了其强大的音频理解能力。

4.5 词级时间戳预测任务分析

我们提出带词级时间戳的语音识别（SRWT）任务，训练Qwen-Audio不仅能识别语音转录文本，还能预测每个词的时间戳。该任务的目标有二：1）提升模型将音频信号与细粒度时间戳对齐的能力；2）为Qwen-Audio-Chat中的语音/音频定位及基于定位的问答任务提供支持（例如，找到提及某人姓名的音频片段的起止时间，或判断特定声音是否出现在给定音频中²）。

本节实验中，我们在多任务预训练中移除SRWT任务，保持其他任务不变。需注意，SRWT任务与自动语音识别（ASR）任务共享同一音频数据集，因此移除SRWT不会影响训练音频数据集的覆盖范围。实验结果如表4与表5所示：加入SRWT训练的模型在自动语音识别与音频问答任务（包括自然声音问答、音乐问答）上的性能均更优。这一结果表明，引入细粒度词级时间戳可有效提升模型对通用音频信号的定位能力，进而改善声音与音乐信号问答任务的性能。

² 音频事件检测可视为事件时间戳预测的子任务——若未检测到某事件的时间戳，则表明该事件未出现在音频中。