Seed1.5-VL——技术报告详解

引言： Seed1.5-VL 是字节跳动 Seed 团队推出的视觉语言基础模型，由 532M 参数的视觉编码器和 20B 激活参数的 MoE LLM 组成。在 60 个公开基准上取得 38 个 SOTA，包括 21/34 视觉语言基准、14/19 视频基准和 3/7 GUI 智能体任务。在 GUI 控制和游戏玩法等智能体任务上超越 OpenAI CUA 和 Claude 3.7 Sonnet。

✈️ 引言

视觉语言模型（VLM）已成为实现通用人工智能感知、推理和行动的基础范式。通过在统一模型内对齐视觉和文本模态，VLM 在多模态推理、图像编辑、GUI 智能体、自动驾驶和机器人等领域快速推进研究前沿。

然而，尽管取得实质性进展，当前 VLM 在需要 3D 空间理解、对象计数、想象性视觉推理和交互式游戏等任务上仍未达到人类水平。这些局限性凸显了 VLM 开发的固有挑战：VLM 缺乏足够丰富多样的视觉语言标注，多模态数据的异构性增加了训练和推理的复杂性。

Seed1.5-VL 通过多样化数据合成流水线解决高质量标注稀缺问题，针对 OCR、视觉定位、计数、视频理解和长尾知识等关键能力进行预训练，以及视觉谜题和游戏的后训练。模型在万亿级多模态 token 上预训练，后训练阶段整合人类反馈和可验证奖励信号增强通用推理能力。

阅读提示： 本文按原文结构依次介绍模型架构、预训练数据与训练配方、后训练流程、训练基础设施和全面评估结果。Seed1.5-VL 在 MathVista（85.6）、DocVQA（96.9）、CountBench（93.7）等基准上取得 SOTA。

🏗️ 模型架构

Seed1.5-VL 的架构包含三个组件：视觉编码器、MLP 适配器和大语言模型（LLM）。视觉编码器原生支持动态图像分辨率，采用 2D RoPE 进行位置编码；MLP 适配器通过平均池化压缩视觉特征后输入 LLM。

Seed1.5-VL 架构

视觉编码器

许多当代 VLM 集成为固定输入分辨率设计的预训练视觉编码器，这会在处理高分辨率图像、视频或需要精细细节的任务（如 OCR）时丢失细粒度视觉信息。Seed1.5-VL 开发了 Seed-ViT，专门为原生分辨率特征提取设计的视觉编码器。

Seed-ViT 基于 Vision Transformer 架构，包含 532M 参数。在零样本分类基准上，Seed-ViT 达到与参数量显著更大的模型（如 6B 参数的 InternVL-C）相当的性能。

架构超参数：

Patch Size	Position Embed	Head Dim	Num Heads	Embed Dim	MLP Ratio	Depth
14	2D RoPE	64	20	1280	4.0	27

输入图像通过双线性插值调整分辨率至最接近的像素倍数，然后分割为像素的非重叠 patch。遵循 NaViT 的方法，将多张图像的 patch 序列拼接为统一序列，通过注意力掩码确保不同图像的 token 不相互关注。输出 patch 嵌入经过平均池化后传入后续 MLP 适配器和 LLM。

ViT 预训练

Seed-ViT 在集成到 VLM 之前经历独立的预训练流程，遵循三大准则：

ViT 预训练提升训练效率：无编码器 VLM 训练效率仍不足
早期整合原生分辨率建模：架构在 ViT 预训练和 VLM 阶段保持一致，避免性能下降
全面数据利用：预训练阶段利用 VLM 训练的全部数据类型

ViT 预训练分为三个阶段：

阶段	方法	数据规模	目标
MIM with 2D RoPE	掩码图像建模	大规模图像	视觉几何和结构感知
Native-Resolution CL	对比学习	图文对	图像-文本对齐
Omni-modal Pre-training	MiCo 框架	视频+音频	统一全模态表示

MIM with 2D RoPE：使用 EVA02-CLIP-E 作为教师模型，随机掩码 75% 图像 patch，通过余弦相似度损失重建 CLIP 特征。学生模型使用 2D RoPE，教师模型使用可学习位置嵌入，这种差异不影响性能，反而赋予学生模型鲁棒的原生动态分辨率识别能力。

原生分辨率对比学习：使用 MIM 训练的学生模型初始化视觉编码器，文本编码器从 EVA-02-CLIP-E 初始化。通过注意力池化将 patch 特征聚合为 1280 维图像嵌入，联合优化 SigLIP 损失和 SuperClass 损失。

全模态预训练：采用 MiCo 框架构建对齐元组，包含视频帧、音频、视觉字幕和音频字幕。ViT 同时编码视频帧和音频，尽管仅消耗 4.8% 的 token 预算，但显著增强图像和视频理解能力。

视频编码

有效编码视频仍是核心挑战。模型解释时间序列、适应不同帧率和感知绝对时间的能力对理解动态视觉内容至关重要。Seed1.5-VL 引入动态帧分辨率采样策略，联合优化时间和空间维度。

时间维度：根据内容复杂度和任务要求动态调整帧采样频率：

默认：1 FPS（通用视频理解）
详细时间信息：2 FPS（动作理解任务）
计数/运动追踪：5 FPS

每帧前添加时间戳 token（如 [1.5 second]）增强时间感知。

空间维度：动态调整每帧分辨率，在最大 81,920 token/视频预算内，提供六级分辨率选择：{640, 512, 384, 256, 160, 128}。视频超长时触发回退机制，通过均匀采样减少帧数确保完整表示。

📊 预训练

预训练数据

Seed1.5-VL 预训练语料包含 3 万亿多样化高质量 token，按目标能力分类组织。

通用图文对与知识数据：网络图文对数据规模空前但存在噪声和类别不平衡。作者通过 CLIP 分数过滤、图像/文本标准过滤、去重和 URL/域名过滤等手段清洗数据。针对长尾分布问题，使用 VLM 自动标注语义域和命名实体，识别低频视觉知识，对表示不足的域进行上采样重平衡。

OCR 数据：构建超过 10 亿样本的 OCR 训练集，覆盖文档、场景文本、表格、图表和流程图。文档数据从多来源收集并提取内容和布局；合成超过 2 亿文本密集图像，使用 SynthDog 和 LaTeX，应用模糊、摩尔纹和扭曲增强；图表数据超过 1 亿样本，结合开源数据集和 LLM 生成流水线；表格数据超过 5000 万图像，渲染 HTML、LaTeX 和 Markdown 格式。

视觉定位与计数：采用边界框和中心点两种定位表示，扩展到对象计数。使用 Objects365、OpenImages、RefCOCO/+/g 等开源数据，通过 VLM 检查过滤低质量样本，构建通用 2D 定位、空间关系问答、视觉提示问答等多任务数据（约 4800 万样本、410 亿 token）。自动标注流水线带来约 2 亿样本、2000 亿 token。

3D 空间理解：构建相对深度排序、绝对深度估计和 3D 定位三类数据。使用 DepthAnything V2 推断 200 万互联网图像的对象深度关系（32 亿 token）；从公开数据集提取绝对深度（1800 万指令对、280 亿 token）；3D 定位数据（77 万指令对、13 亿 token）。

视频数据：分为通用视频理解（字幕、问答、动作识别/定位、多图像理解）、时间定位和流式视频三类。流式视频数据包含交错字幕/问答、主动推理和实时解说，增强实时视频理解能力。

STEM 数据：收集 320 万高质量教育定位样本（数学/物理/化学/生物）、1000 万结构化表格、450 万化学结构图、150 万坐标系图、K12 标注数据（10 万人工标注、100 万 VQA、100 万机器字幕）和超过 1 亿 K12 练习题。

GUI 数据：来自 UI-TARS，覆盖 Web、App 和桌面环境。截图配对结构化元数据（元素类型、边界框、文本、深度），构建感知（元素描述、密集字幕、状态转换字幕）、定位（从文本描述预测坐标）和推理（多步任务轨迹）任务。

训练配方

Seed1.5-VL 采用后置适配方法，LLM 从约 20B 激活参数的内部预训练 MoE 模型初始化。VLM 预训练分为三阶段：

阶段	Token 预算	序列长度	可训练组件	批大小
Stage 0	16B	32,768	MLP 适配器	8.4M
Stage 1	3T	32,768	全部	71M
Stage 2	240B	131,072	全部	71M

Stage 0：仅训练 MLP 适配器，视觉编码器和 LLM 冻结。跳过此阶段会导致损失略高和性能下降。
Stage 1：所有参数可训练，知识积累和视觉定位/OCR 能力学习。添加 5% 纯文本 token 维持语言能力，少量指令遵循数据使评估更可靠。
Stage 2：更平衡的数据混合，新增视频理解、编码和 3D 空间理解域。序列长度扩展到 131,072 以建模长依赖。

训练策略差异：作者尝试了 Stage 0 同时训练 MLP 适配器和视觉编码器的方案（类似 Qwen2-VL），但实验表明本文方案性能更优。假设是视觉编码器试图补偿冻结 LLM 的潜在缺陷，可能损害其感知能力。

缩放定律

VLM 预训练与 LLM 标准实践（随机初始化所有参数）有根本差异。基于预训练组件（视觉编码器、MLP 适配器、LLM），固定模型架构，损失主要依赖训练数据规模：

$\log(\hat{L}) \sim -a\log(D)+b$

观察发现，特定数据子类别的训练损失与下游任务性能呈近似对数线性关系。例如：

$\text{Acc}_{\text{ChartQA}} \approx -0.0968\log(\text{loss}_\text{ocr})+0.7139$ $\text{Acc}_{\text{InfoVQA}} \approx -0.1488\log(\text{loss}_\text{ocr})+0.5319$

这表明可以通过监控训练损失预测下游任务性能，指导数据收集和训练策略。

🚀 后训练

后训练将基座模型转化为具有强推理、编码和智能体能力的助手。采用渐进对齐策略：SFT 引入交错思考模式，专用 RL 阶段处理推理和智能体任务，通用 RL 阶段实现人类风格对齐，最后通过策略内跨阶段蒸馏减轻能力遗忘。

监督微调

SFT 数据覆盖三大类别：

通用聊天：问答、写作、角色扮演、翻译、多轮对话、长上下文交互
推理：数学、编程、科学推理
编码与智能体：前端/后端代码、工具调用、编码智能体、搜索智能体、通用智能体

长链思维（LongCoT）数据：主要来自 STEM 编程和数学问题。使用 LLM 翻译公开可用推理数据，生成中英双语版本的详细推理过程。任务领域包括多步几何推理、代码生成与调试、复杂游戏策略、长视程规划和常识推理。

评估导向数据：整合内部评估集到 SFT 流水线，包含复杂推理问题（数学竞赛、高难度 STEM）、代码挑战（竞技编程、工程任务）和智能体任务（复杂导航、GUI 操作）。

混合强化学习

后训练采用混合 RL 框架，结合人类反馈（RLHF）和可验证奖励信号（RLVF）。

后训练流程

可验证任务设计：定义三类可验证任务：

编程任务：通过执行测试用例验证正确性
数学任务：与标准答案精确匹配验证
视觉定位任务：与真实坐标的空间重叠验证

混合奖励：训练提示分为通用提示和可验证提示，分别使用奖励模型和验证器奖励。通用提示采样 1 次，可验证提示采样 4-8 次以支持充分探索。

共享 Critic：单一 critic 模型架构估计两种奖励源的价值函数。奖励模型输出归一化到 [0,1]，验证器结果显式缩放到相同范围。

KL 系数：通用提示使用KL 系数缓解奖励黑客，可验证提示使用 0 系数允许更大探索。

LongCoT RL 的涌现能力：尽管仅在 LongCoT 响应上训练，模型在无需扩展推理的常规响应上也观察到显著改进。这表明推理能力的训练可以泛化到标准任务。

拒绝采样微调迭代更新

采用迭代训练策略增强模型。初始 LongCoT SFT 模型通过少量标注样本上下文提示生成。观察到更强的冷启动 SFT 自然导向更强的 LongCoT RL 最终模型，采用拒绝采样微调获取改进起点。

每轮 LongCoT RL 发布后，收集额外挑战性提示，用最新 RL 模型评估，正确回答的响应纳入下一轮 SFT 数据。使用 RL 阶段相同验证器确认正确性，手动正则过滤移除无限重复、过度思考等不良模式。当前版本已迭代 4 轮，持续改进。

🏭 训练基础设施

大规模预训练

预训练阶段共消耗 130 万 GPU 小时（归一化到 H800）。开发了多项训练优化：混合并行、负载均衡、并行感知数据加载、容错训练。

混合并行：视觉编码器采用 ZeRO 数据并行，LLM 采用标准 4D 并行（专家并行 + 流水线并行 + ZeRO-1 数据并行 + 上下文并行）。分离编码器和 LLM 的并行策略以提高效率和简洁性。

负载均衡：视觉样本包含不同数量图像，导致 GPU 计算不平衡。采用贪心算法重分布视觉数据：按计算强度降序排列图像，依次分配给当前计算强度最低的 GPU。实验设置组大小为 128-256 GPU。

并行感知数据加载：非数据并行组的 GPU 消费相同训练样本。仅一个 GPU 加载数据，通过广播传输元数据。每个 GPU 仅处理加载图像数据的一部分，减少 PCIe 流量。使用预取器确保 IO 和计算完全重叠。

后训练框架

在 verl-based 框架上实施混合 RL，结合单控制器管理 RL 间数据流和多控制器管理 RL 内数据和模型并行。验证器部署为进程服务隔离潜在故障。

Actor 和 critic 训练采用 3D 并行，rollout 生成和奖励/参考模型推理使用副本（各配置张量并行）。RL 阶段消耗 6 万 GPU 小时，奖励模型训练消耗 2.4 万 GPU 小时。

🎯 评估结果

视觉编码器评估

Seed-ViT 在零样本分类基准上达到 82.5% 平均准确率，与 InternVL-C-6B（6B 参数）相当，而参数仅为其 9%。与 30 倍参数量的 EVA-CLIP-18B 相比，在多数 ImageNet 变体上准确率相当，在 ObjectNet 和 ImageNet-A 上表现更优，表明更强的真实世界变化鲁棒性。

视觉任务评估

Seed1.5-VL 在 60 个公开基准上评估，取得 38 个 SOTA。

多模态推理：

基准	Seed1.5-VL (thinking)	Seed1.5-VL	Gemini 2.5 Pro	GPT-4o
MMMU	77.9	73.6	81.7	70.7
MathVista	85.6	83.0	82.7	63.8
VLM are Blind	92.1	90.8	84.3	50.4
VisuLogic	35.0	33.0	31.0	26.3

文档与图表理解：

基准	Seed1.5-VL (thinking)	Seed1.5-VL	Gemini 2.5 Pro	Qwen 2.5-VL 72B
TextVQA	81.8	84.2	76.8	83.5
DocVQA	96.9	96.7	94.0	96.4
InfographicVQA	91.2	89.3	84.3	87.3
ChartQA	89.1	87.4	83.3	89.5

定位与计数：Seed1.5-VL 在所有定位和计数基准上取得 SOTA：

基准	Seed1.5-VL (thinking)	Seed1.5-VL	Gemini 2.5 Pro	Qwen 2.5-VL 72B
BLINK	72.1	70.2	70.6	64.4
RefCOCO-avg	91.3	91.6	74.6	90.3
CountBench	93.7	93.5	91.0	93.6
FSC-147 ↓	17.9	18.6	24.5	28.6

3D 空间理解：在深度估计和 3D 定位上大幅超越前代 VLM：

基准	Seed1.5-VL (thinking)	Seed1.5-VL	Gemini 2.5 Pro	Qwen 2.5-VL 72B
DA-2K	91.7	91.9	73.0	69.6
NYU-Depth V2 ↓	13.6	11.6	27.5	35.5
All-Angles Bench	58.6	59.0	53.4	55.7

定位与计数 SOTA 满堂红：Seed1.5-VL 在 BLINK、LVIS-MG、VisualWebBench、RefCOCO-avg、CountBench、FSC-147 六个定位/计数基准上全部取得第一。在 LVIS-MG 上达到 73.8 F1，超越传统检测器 Grounding DINO-L（54.4）。

视频任务评估

Seed1.5-VL 在 19 个视频基准上取得 14 个 SOTA：

能力维度	基准	Seed1.5-VL	Prior SOTA
短视频	MotionBench	68.4	62.8 (GLM-4V)
短视频	TVBench	63.6	62.6 (Gemini 2.5 Pro)
短视频	TempCompass	83.7	75.8 (Gemini 2.5 Pro)
长视频	MLVU	82.1	81.2 (Gemini 2.5 Pro)
流式视频	OVBench	60.0	54.9 (PMB)
流式视频	StreamBench	72.8	68.7 (GPT-4o)
视频定位	Charades-STA	64.0	64.7 (Seed1.5-VL)
视频定位	TACoS	49.6	42.4 (SG-DETR)

智能体评估

GUI 智能体：

基准	Seed1.5-VL	Claude 3.7 Sonnet	OpenAI CUA
ScreenSpot Pro	60.9	56.4	57.6
ScreenSpot v2	95.2	94.4	90.8
OSWorld	36.7	28.0	38.1
WebVoyager	87.2	82.6	82.4
AndroidWorld	62.1	46.6	38.5

GUI 智能体领先：Seed1.5-VL 在 WebVoyager（87.2%）和 Online-Mind2Web（76.4%）上超越 OpenAI CUA 和 Claude 3.7 Sonnet，在 AndroidWorld（62.1%）上大幅领先。在基础 VLM 中 GUI 能力显著领先。

游戏智能体：在 14 个 Poki.com 游戏上评估，Seed1.5-VL 在 2048（870.6 vs 611.2）、Hex-Frvr（1414.0 vs 651.6）等游戏上大幅超越 OpenAI CUA 和 Claude 3.7 Sonnet。长视程游戏玩法特别适合评估推理时扩展行为，Seed1.5-VL 展现出随交互轮数增加保持更高性能的强扩展性。

模型局限性

尽管在多个基准上表现优异，Seed1.5-VL 在以下方面存在局限：

精细视觉感知：对象不规则排列、颜色相似或部分遮挡时计数困难；识别图像间细微差异有时出错；复杂空间关系解读不准确
高级推理：在人类简单的任务（如华容道、迷宫导航）上表现欠佳，需要探索视觉 Chain-of-Thought 等技术
组合搜索：需要组合搜索的推理任务对现有 VLM 架构仍是挑战，代码使用和外部工具集成是未来方向
3D 空间推理：3D 对象操作和投影推理任务仍有困难，图像生成能力可能是解决方案
幻觉：当视觉输入与语言模型先验知识冲突时，模型倾向于优先考虑先验知识

💡 结论

Seed1.5-VL 是字节跳动 Seed 团队推出的视觉语言基础模型，通过 532M 参数视觉编码器和 20B 激活参数 MoE LLM 的紧凑架构，在 60 个公开基准上取得 38 个 SOTA。模型在定位、计数、3D 空间理解、文档理解（TextVQA、DocVQA、InfographicVQA）和部分推理任务（MathVista、VLM are Blind）上建立领先地位。

核心贡献包括：