【论文解读】Qwen2.5-VL | Civilization Museum

type

status

password

date

slug

summary

摘要

Qwen2.5-VL它能从发票、表单和表格中提取结构化数据，并对图表、图形和布局进行详细分析。为处理复杂输入，Qwen2.5-VL引入动态分辨率处理和绝对时间编码，使其能够处理不同尺寸的图像和长达数小时的视频，并实现秒级事件定位。这使模型无需依赖传统归一化技术，就能原生感知空间尺度和时间动态。

Qwen2.5-VL提供三种尺寸，满足从边缘AI到高性能计算的多样化需求。旗舰模型Qwen2.5-VL-72B与GPT-4o、Claude 3.5 Sonnet等最先进模型性能相当，尤其在文档和图表理解方面表现突出。较小的Qwen2.5-VL-7B和Qwen2.5-VL-3B模型优于同级别竞品，即使在资源受限环境中也能提供强大能力。此外，Qwen2.5-VL保持了强大的语言性能，保留了Qwen2.5大语言模型的核心语言能力。

1. 引言

尽管多模态大语言模型取得了显著进步，在各种任务中表现尚可，但尚未达到卓越水平。在本报告中，我们介绍最新成果Qwen2.5-VL。技术上，我们的贡献有四点：（1）在视觉编码器中实现窗口注意力以优化推理效率；（2）引入动态FPS采样，将动态分辨率扩展到时间维度，支持不同采样率下的全面视频理解；（3）通过与绝对时间对齐，在时间域升级MRoPE，促进更复杂的时间序列学习；（4）在预训练和有监督微调中大力构建高质量数据，将预训练语料库从1.2万亿token扩展到4.1万亿token。

Qwen2.5-VL的显著特点如下：

强大的文档解析能力：Qwen2.5-VL将文本识别升级为全文档解析，擅长处理多场景、多语言和各种内置元素（手写体、表格、图表、化学公式和乐谱）的文档。

跨格式的精确目标定位：Qwen2.5-VL提高了目标检测、指向和计数的准确性，支持绝对坐标和JSON格式以进行高级空间推理。

超长视频理解和细粒度视频定位：模型将原生动态分辨率扩展到时间维度，增强了对长达数小时视频的理解能力，同时能以秒级提取事件片段。

增强的计算机和移动设备智能体功能：利用先进的定位、推理和决策能力，提升模型在智能手机和计算机上的智能体功能。

2. 方法

2.1 模型架构

Qwen2.5-VL的整体模型架构由三部分组成：

大语言模型：模型以Qwen2.5 LLM的预训练权重初始化。为更好地满足多模态理解需求，我们将1D RoPE（旋转位置嵌入）修改为对齐绝对时间的多模态旋转位置嵌入（Multimodal Rotary Position Embedding Aligned to Absolute Time）。让模型理解 “哪里发生了什么”，例如视频中 “第 10 秒出现的物体” vs “第 20 秒出现的同一物体”。

视觉编码器：Qwen2.5-VL的视觉编码器采用重新设计的视觉Transformer（ViT）架构。在结构上，我们融入2D-RoPE和窗口注意力（SwinTransformer），以支持原生输入分辨率，同时加速整个视觉编码器的计算。在训练和推理期间，输入图像的高度和宽度被调整为28的倍数后输入ViT。视觉编码器通过将图像分割为步长为14的patch来处理图像，生成一组图像特征。我们在2.1.1节中提供更详细的介绍。

基于MLP的视觉-语言融合器：如果patch太多，模型处理效率会受到严重影响，我们采用一种简单有效的方法对patch其进行压缩。具体而言，我们首先将空间相邻的四个patch特征分组。然后将这些分组特征拼接并通过两层多层感知器（MLP）投射到与LLM中使用的文本嵌入相匹配的维度。这种方法不仅降低了计算成本，还提供了灵活的方式动态压缩不同长度的图像特征序列。

3、视觉编码器

3.1 图片预处理

3.1.1 image的尺寸处理

检查每张图片的max(h,w)/min(h,w)是否在阈值范围内，如果超过阈值。则认为该图片高宽比太离谱，会直接抛出异常(当前阈值200)。

通过近似的方式，重新设置图片的h和w值，确保它们可以被28整除。

如果这张图片分辨率超过了max_pixels，min_pixels 的范围，那么就在尽量维持其宽高比例不变的情况下，重新计算其符合max_pixels范围的h和w。图片太小也是同理。

经过前面的步骤，我们得到了这张图片最终理想的h和w值(resized_height, resized weight)，我们采用

3.1.2 切分patch

将图片切分成14*14的patch，每个patch的维度是14*14*3*2=1176。

💡

把每张图片复制temporal_patch_size次(默认为2)。这是为了在image数据上也增加T这个维度，以保证image和video的处理逻辑一致（因为video也是把相邻的2帧组成一组)。

💡

切分patch

这里patch不是按照一张图从左到右，从上到下的顺序排列的，而是按照把2*2区域内的4个patch变成连续的4个patch排列的。为了方便后续windows attention操作

3.2、视频预处理

3.2.1、采样

3.2.2、帧的尺寸调整

按照3.1.1 image的尺寸处理处理每一帧图片。

3.2.3、切分patch

与3.1.2 切分patch 相同对[时间,宽,高]3个维度进行切分。

3.2、模型架构

在我们的架构中，只有四层采用全自注意力，其余层使用最大窗口大小为112×112（对应8×8patch）的窗口注意力。小于112×112的区域无需填充即可处理，保留其原始分辨率。

3.2.1、二维位置编码

一半的维度用于计算H、一半的维度用于计算W。下方公式中的h、w分别代表二维图像中的位置。d代表隐藏层维度

3.2.2、训练

在训练方面，我们从头开始训练重新设计的ViT。训练过程包括多个阶段，包括CLIP预训练、视觉-语言对齐和端到端微调。为确保在不同输入分辨率下的鲁棒性，我们在训练期间采用原生分辨率的动态采样。图像根据其原始纵横比随机采样，使模型能够有效泛化到不同分辨率的输入。

4、LLM部分

4.1、RoPE多模态旋转位置编码

4.1.1、视频的位置编码

将位置信息分解为时间、高度、宽度三个维度的旋转操作。可参考二维RoPE 。：

Qwen2.5-VL引入绝对时间编码，将实际时间间隔映射为位置ID：

其中：

为时间块索引，

为每个时间块的秒数（second_per_grid_t），

为缩放因子（代码中为2）。

4.1.2、文本

对于文本来说，pos_id三个维度值均相等，例如（14,14,14）。导致最终，坍缩为一维RoPE。

4.1.3、模态衔接

下一个新模态的pos_id初始值来自上一个模态的pos_id(t,h,w)中的最大值+1

比如，下面图片例子中文本pos_id的起始值就是视频pos_id的最大值+1。如果文本后面再跟一条vision数据（文本pos_id最大值是12），那么这个vision数据的tokens的position_id应该是由(0,0,0),(0,0,1),(0,0,2).变成(0+13,0+13,0+13),(0+13,0+13,1+13),(0+13,0+13,2+13),..以此类推。

5、训练

5.1 预训练

5.1.1 预训练数据

与Qwen2-VL相比，预训练数据量从1.2万亿token增加到约4万亿token。我们的预训练数据集通过清洁原始网络数据、合成数据等多种方法构建。该数据集包含多种多模态数据，如图像标题、交错的图像-文本数据、光学字符识别（OCR）数据、视觉知识（如名人、地标、动植物识别）、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位和基于智能体的交互数据。在整个训练过程中，我们在不同阶段仔细调整这些数据类型的组成和比例，以优化学习效果。

5.1.2 训练方案

我们使用DataComp（Gadre等, 2023）和一些内部数据集从头训练视觉Transformer（ViT），作为视觉编码器的初始化，同时利用预训练的Qwen2.5大语言模型（LLM）（Yang等, 2024a）作为LLM组件的初始化。如表2所示，预训练过程分为三个不同阶段，每个阶段采用不同的数据配置和训练策略，逐步增强模型能力。

阶段	视觉预训练	多模态预训练	长上下文预训练
数据	图像标题、视觉知识、OCR	纯文本、交错数据、VQA、视频定位、智能体	+ 长视频、长智能体任务、长文档
token数	1.5T	2T	0.6T
序列长度	8192	8192	32768
训练组件	ViT	ViT & LLM	ViT & LLM

在第一阶段，仅训练视觉Transformer（ViT）以提高其与语言模型的对齐，为多模态理解奠定坚实基础。此阶段的主要数据源包括图像标题、视觉知识和OCR数据。精心选择这些数据集以培养ViT提取能够与文本信息有效集成的有意义视觉表示的能力。

在第二阶段，所有模型参数被解冻，模型在多样化的多模态图像数据上训练，以增强其处理复杂视觉信息的能力。此阶段引入更复杂和需要推理的数据集，如交错数据、多任务学习数据集、视觉问答（VQA）、多模态数学、基于智能体的任务、视频理解和纯文本数据集。这些数据集加强了模型在视觉和语言模态之间建立更深层次联系的能力，使其能够处理日益复杂的任务。

在第三阶段，为进一步增强模型在更长序列上的推理能力，纳入视频和基于智能体的数据，同时增加序列长度。这使模型能够更精确地处理更高级和复杂的多模态任务。通过延长序列长度，模型获得处理扩展上下文的能力，这对于需要长程依赖和复杂推理的任务特别有利。

5.2 训练后处理

Qwen2.5-VL的训练后对齐框架采用双阶段优化范式，包括有监督微调（SFT）和直接偏好优化（DPO）（Rafailov等, 2023）。

5.2.1 指令数据

有监督微调（SFT）阶段，旨在增强模型在不同模态上的指令遵循能力。该数据集包含约200万条条目，均匀分布在纯文本数据（50%）和多模态数据（50%）之间，其中多模态数据包括图像-文本和视频-文本组合。多模态数据的纳入使模型能够有效处理复杂输入。值得注意的是，尽管纯文本和多模态条目占比相同，但多模态条目在训练期间消耗显著更多的token和计算资源。数

数据集不仅包括单轮和多轮交互；还包括通用视觉问答（VQA）、图像标题生成、数学问题解决、编码任务和安全相关查询的专用子集。此外，构建了用于文档和光学字符识别（Doc and OCR）、定位、视频分析和智能体交互的专用数据集，以提高特定领域的熟练程度。

5.2.2 数据过滤管道

训练数据的质量是影响视觉-语言模型性能的关键因素。为此，我们实施了一个两阶段数据过滤管道，旨在系统地提高有监督微调（SFT）数据集的质量。该管道包括以下阶段：

第一阶段：特定领域分类在初始阶段，我们采用Qwen2-VL-Instag（一种源自Qwen2-VL-72B的专用分类模型）对问答（QA）对进行分层分类。该模型将QA对分为八个主要领域，如编码和规划，这些领域进一步细分为30个细粒度子类别。例如，编码这一主要领域又细分为代码调试、代码生成、代码转换和代码理解等子类别。这种分层结构有利于领域感知和子领域感知的过滤策略，使管道能够优化为每个类别特定特征量身定制的数据清洁过程。因此，这提高了有监督微调（SFT）数据集的质量和相关性。

第二阶段：领域定制过滤第二阶段涉及领域定制过滤，它整合了基于规则和基于模型的方法，以全面提高数据质量。鉴于文档处理、光学字符识别（OCR）和视觉定位等领域的多样性，每个领域可能需要独特的过滤策略。

5.2.3 用于增强推理的拒绝采样

采用拒绝采样作为一种策略来细化数据集并增强视觉-语言模型（VLM）的推理能力。这种方法对于需要复杂推理的任务特别关键，如数学问题解决、代码生成和特定领域的视觉问答（VQA）。先前的研究表明，结合思维链（CoT）Wei等人（2022）推理显著提高了模型的推理性能。（DeepSeek-AI等, 2024）我们的训练后实验证实了这一点，强调了结构化推理过程对于实现高质量结果的重要性。

拒绝采样过程从富含真实标注的数据集开始。使用Qwen2.5-VL模型的中间版本，我们根据真实值评估生成的响应。仅保留模型输出与预期答案匹配的样本，确保数据集仅包含高质量、准确的示例。

为进一步提高数据质量，我们排除表现出代码切换、过长或重复模式的响应。这些标准确保CoT推理过程的清晰度和连贯性，这对于下游应用至关重要。

将CoT推理应用于视觉-语言模型的一个关键挑战是它们对文本和视觉模态的依赖。中间推理步骤可能无法充分整合视觉信息，要么忽略相关视觉线索，要么对其进行错误解释。为解决这一问题，我们开发了基于规则和模型驱动的过滤策略，以验证中间推理步骤的准确性。这些机制确保CoT过程的每个步骤都能有效整合视觉和文本模态。尽管做出了这些努力，实现最佳模态对齐仍然是一个持续的挑战，需要进一步的研究进展。

5.2.4 训练方案

Qwen2.5-VL的训练后处理包括两个阶段：有监督微调（SFT）和直接偏好优化（DPO），均冻结视觉Transformer（ViT）参数。在SFT阶段，模型在多样化的多模态数据上进行微调，包括图像-文本对、视频和纯文本，这些数据来自通用VQA、拒绝采样以及文档和OCR、定位、视频和智能体相关任务等专用数据集。DPO阶段专门关注图像-文本和纯文本数据，利用偏好数据使模型与人类偏好对齐，每个样本仅处理一次以确保高效优化。这种精简的过程增强了模型的跨模态推理和特定任务性能，同时保持与用户意图的对齐。

6 实验

在本节中，我们首先介绍整体模型，并与当前最先进（SoTA）的模型进行比较。然后，我们评估模型在各种子能力上的性能。