Seed1.5-VL——技术报告详解

引言: Seed1.5-VL 是字节跳动 Seed 团队推出的视觉语言基础模型,由 532M 参数的视觉编码器和 20B 激活参数的 MoE LLM 组成。在 60 个公开基准上取得 38 个 SOTA,包括 21/34 视觉语言基准、14/19 视频基准和 3/7 GUI 智能体任务。在 GUI 控制和游戏玩法等智能体任务上超越 OpenAI CUA 和 Claude 3.7 Sonnet。

✈️ 引言

视觉语言模型(VLM)已成为实现通用人工智能感知、推理和行动的基础范式。通过在统一模型内对齐视觉和文本模态,VLM 在多模态推理、图像编辑、GUI 智能体、自动驾驶和机器人等领域快速推进研究前沿。

然而,尽管取得实质性进展,当前 VLM 在需要 3D 空间理解、对象计数、想象性视觉推理和交互式游戏等任务上仍未达到人类水平。这些局限性凸显了 VLM 开发的固有挑战:VLM 缺乏足够丰富多样的视觉语言标注,多模态数据的异构性增加了训练和推理的复杂性。

Seed1.5-VL 通过多样化数据合成流水线解决高质量标注稀缺问题,针对 OCR、视觉定位、计数、视频理解和长尾知识等关键能力进行预训练,以及视觉谜题和游戏的后训练。模型在万亿级多模态 token 上预训练,后训练阶段整合人类反馈和可验证奖励信号增强通用推理能力。

阅读提示: 本文按原文结构依次介绍模型架构、预训练数据与训练配方、后训练流程、训练基础设施和全面评估结果。Seed1.5-VL 在 MathVista(85.6)、DocVQA(96.9)、CountBench(93.7)等基准上取得 SOTA。

🏗️ 模型架构

Seed1.5-VL 的架构包含三个组件:视觉编码器、MLP 适配器和大语言模型(LLM)。视觉编码器原生支持动态图像分辨率,采用 2D RoPE 进行位置编码;MLP 适配器通过平均池化压缩视觉特征后输入 LLM。

Seed1.5-VL 架构

视觉编码器

许多当代 VLM 集成为固定输入分辨率设计的预训练视觉编码器,这会在处理高分辨率图像、视频或需要精细细节的任务(如 OCR)时丢失细粒度视觉信息。Seed1.5-VL 开发了 Seed-ViT,专门为原生分辨率特征提取设计的视觉编码器。

Seed-ViT 基于 Vision Transformer 架构,包含 532M 参数。在零样本分类基准上,Seed-ViT 达到与参数量显著更大的模型(如 6B 参数的 InternVL-C)相当的性能。

架构超参数

Patch SizePosition EmbedHead DimNum HeadsEmbed DimMLP RatioDepth
142D RoPE642012804.027

输入图像通过双线性插值调整分辨率至最接近的像素倍数,然后分割为像素的非重叠 patch。遵循 NaViT 的方法,将多张图像的 patch 序列拼接为统一序列,通过注意力掩码确保不同图像的 token 不相互关注。输出 patch 嵌入经过平均池化后传入后续 MLP 适配器和 LLM。

ViT 预训练

Seed-ViT 在集成到 VLM 之前经历独立的预训练流程,遵循三大准则:

  1. ViT 预训练提升训练效率:无编码器 VLM 训练效率仍不足
  2. 早期整合原生分辨率建模:架构在 ViT 预训练和 VLM 阶段保持一致,避免性能下降
  3. 全面数据利用:预训练阶段利用 VLM 训练的全部数据类型

ViT 预训练分为三个阶段:

阶段方法数据规模目标
MIM with 2D RoPE掩码图像建模大规模图像视觉几何和结构感知
Native-Resolution CL对比学习图文对图像-文本对齐
Omni-modal Pre-trainingMiCo 框架视频+音频统一全模态表示

MIM with 2D RoPE:使用 EVA02-CLIP-E 作为教师模型,随机掩码 75% 图像 patch,通过余弦相似度损失重建 CLIP 特征。学生模型使用 2D RoPE,教师模型使用可学习位置嵌入,这种差异不影响性能,反而赋予学生模型鲁棒的原生动态分辨率识别能力。

原生分辨率对比学习:使用 MIM 训练的学生模型初始化视觉编码器,文本编码器从 EVA-02-CLIP-E 初始化。通过注意力池化将 patch 特征聚合为 1280 维图像嵌入,联合优化 SigLIP 损失和 SuperClass 损失。

全模态预训练:采用 MiCo 框架构建对齐元组,包含视频帧、音频、视觉字幕和音频字幕。ViT 同时编码视频帧和音频,尽管仅消耗 4.8% 的 token 预算,但显著增强图像和视频理解能力。

视频编码

有效编码视频仍是核心挑战。模型解释时间序列、适应不同帧率和感知绝对时间的能力对理解动态视觉内容至关重要。Seed1.5-VL 引入动态帧分辨率采样策略,联合优化时间和空间维度。

时间维度:根据内容复杂度和任务要求动态调整帧采样频率:

  • 默认:1 FPS(通用视频理解)
  • 详细时间信息:2 FPS(动作理解任务)
  • 计数/运动追踪:5 FPS

每帧前添加时间戳 token(如 [1.5 second])增强时间感知。

空间维度:动态调整每帧分辨率,在最大 81,920 token/视频预算内,提供六级分辨率选择:{640, 512, 384, 256, 160, 128}。视频超长时触发回退机制,通过均匀采样减少帧数确保完整表示。

📊 预训练

预训练数据

Seed1.5-VL 预训练语料包含 3 万亿多样化高质量 token,按目标能力分类组织。

通用图文对与知识数据:网络图文对数据规模空前但存在噪声和类别不平衡。作者通过 CLIP 分数过滤、图像/文本标准过滤、去重和 URL/域名过滤等手段清洗数据。针对长尾分布问题,使用 VLM 自动标注语义域和命名实体,识别低频视觉知识,对表示不足的域进行上采样重平衡。

OCR 数据:构建超过 10 亿样本的 OCR 训练集,覆盖文档、场景文本、表格、图表和流程图。文档数据从多来源收集并提取内容和布局;合成超过 2 亿文本密集图像,使用 SynthDog 和 LaTeX,应用模糊、摩尔纹和扭曲增强;图表数据超过 1 亿样本,结合开源数据集和 LLM 生成流水线;表格数据超过 5000 万图像,渲染 HTML、LaTeX 和 Markdown 格式。

视觉定位与计数:采用边界框和中心点两种定位表示,扩展到对象计数。使用 Objects365、OpenImages、RefCOCO/+/g 等开源数据,通过 VLM 检查过滤低质量样本,构建通用 2D 定位、空间关系问答、视觉提示问答等多任务数据(约 4800 万样本、410 亿 token)。自动标注流水线带来约 2 亿样本、2000 亿 token

3D 空间理解:构建相对深度排序、绝对深度估计和 3D 定位三类数据。使用 DepthAnything V2 推断 200 万互联网图像的对象深度关系(32 亿 token);从公开数据集提取绝对深度(1800 万指令对、280 亿 token);3D 定位数据(77 万指令对、13 亿 token)。

视频数据:分为通用视频理解(字幕、问答、动作识别/定位、多图像理解)、时间定位和流式视频三类。流式视频数据包含交错字幕/问答、主动推理和实时解说,增强实时视频理解能力。

STEM 数据:收集 320 万高质量教育定位样本(数学/物理/化学/生物)、1000 万结构化表格、450 万化学结构图、150 万坐标系图、K12 标注数据(10 万人工标注、100 万 VQA、100 万机器字幕)和超过 1 亿 K12 练习题

GUI 数据:来自 UI-TARS,覆盖 Web、App 和桌面环境。截图配对结构化元数据(元素类型、边界框、文本、深度),构建感知(元素描述、密集字幕、状态转换字幕)、定位(从文本描述预测坐标)和推理(多步任务轨迹)任务。

训练配方

Seed1.5-VL 采用后置适配方法,LLM 从约 20B 激活参数的内部预训练 MoE 模型初始化。VLM 预训练分为三阶段:

阶段Token 预算序列长度可训练组件批大小最大学习率
Stage 016B32,768MLP 适配器8.4M
Stage 13T32,768全部71M
Stage 2240B131,072全部71M
  • Stage 0:仅训练 MLP 适配器,视觉编码器和 LLM 冻结。跳过此阶段会导致损失略高和性能下降。
  • Stage 1:所有参数可训练,知识积累和视觉定位/OCR 能力学习。添加 5% 纯文本 token 维持语言能力,少量指令遵循数据使评估更可靠。
  • Stage 2:更平衡的数据混合,新增视频理解、编码和 3D 空间理解域。序列长度扩展到 131,072 以建模长依赖。

训练策略差异:作者尝试了 Stage 0 同时训练 MLP 适配器和视觉编码器的方案(类似 Qwen2-VL),但实验表明本文方案性能更优。假设是视觉编码器试图补偿冻结 LLM 的潜在缺陷,可能损害其感知能力。

缩放定律

VLM 预训练与 LLM 标准实践(随机初始化所有参数)有根本差异。基于预训练组件(视觉编码器、MLP 适配器、LLM),固定模型架构,损失主要依赖训练数据规模:

观察发现,特定数据子类别的训练损失与下游任务性能呈近似对数线性关系。例如:

这表明可以通过监控训练损失预测下游任务性能,指导数据收集和训练策略。

🚀 后训练

后训练将基座模型转化为具有强推理、编码和智能体能力的助手。采用渐进对齐策略:SFT 引入交错思考模式,专用 RL 阶段处理推理和智能体任务,通用 RL 阶段实现人类风格对齐,最后通过策略内跨阶段蒸馏减轻能力遗忘。

监督微调

SFT 数据覆盖三大类别:

  • 通用聊天:问答、写作、角色扮演、翻译、多轮对话、长上下文交互
  • 推理:数学、编程、科学推理
  • 编码与智能体:前端/后端代码、工具调用、编码智能体、搜索智能体、通用智能体

长链思维(LongCoT)数据:主要来自 STEM 编程和数学问题。使用 LLM 翻译公开可用推理数据,生成中英双语版本的详细推理过程。任务领域包括多步几何推理、代码生成与调试、复杂游戏策略、长视程规划和常识推理。

评估导向数据:整合内部评估集到 SFT 流水线,包含复杂推理问题(数学竞赛、高难度 STEM)、代码挑战(竞技编程、工程任务)和智能体任务(复杂导航、GUI 操作)。

混合强化学习

后训练采用混合 RL 框架,结合人类反馈(RLHF)和可验证奖励信号(RLVF)。

后训练流程

可验证任务设计:定义三类可验证任务:

  1. 编程任务:通过执行测试用例验证正确性
  2. 数学任务:与标准答案精确匹配验证
  3. 视觉定位任务:与真实坐标的空间重叠验证

混合奖励:训练提示分为通用提示和可验证提示,分别使用奖励模型和验证器奖励。通用提示采样 1 次,可验证提示采样 4-8 次以支持充分探索。

共享 Critic:单一 critic 模型架构估计两种奖励源的价值函数。奖励模型输出归一化到 [0,1],验证器结果显式缩放到相同范围。

KL 系数:通用提示使用KL 系数缓解奖励黑客,可验证提示使用 0 系数允许更大探索。

LongCoT RL 的涌现能力:尽管仅在 LongCoT 响应上训练,模型在无需扩展推理的常规响应上也观察到显著改进。这表明推理能力的训练可以泛化到标准任务。

拒绝采样微调迭代更新

采用迭代训练策略增强模型。初始 LongCoT SFT 模型通过少量标注样本上下文提示生成。观察到更强的冷启动 SFT 自然导向更强的 LongCoT RL 最终模型,采用拒绝采样微调获取改进起点。

每轮 LongCoT RL 发布后,收集额外挑战性提示,用最新 RL 模型评估,正确回答的响应纳入下一轮 SFT 数据。使用 RL 阶段相同验证器确认正确性,手动正则过滤移除无限重复、过度思考等不良模式。当前版本已迭代 4 轮,持续改进。

🏭 训练基础设施

大规模预训练

预训练阶段共消耗 130 万 GPU 小时(归一化到 H800)。开发了多项训练优化:混合并行、负载均衡、并行感知数据加载、容错训练。

混合并行:视觉编码器采用 ZeRO 数据并行,LLM 采用标准 4D 并行(专家并行 + 流水线并行 + ZeRO-1 数据并行 + 上下文并行)。分离编码器和 LLM 的并行策略以提高效率和简洁性。

负载均衡:视觉样本包含不同数量图像,导致 GPU 计算不平衡。采用贪心算法重分布视觉数据:按计算强度降序排列图像,依次分配给当前计算强度最低的 GPU。实验设置组大小为 128-256 GPU。

并行感知数据加载:非数据并行组的 GPU 消费相同训练样本。仅一个 GPU 加载数据,通过广播传输元数据。每个 GPU 仅处理加载图像数据的一部分,减少 PCIe 流量。使用预取器确保 IO 和计算完全重叠。

后训练框架

在 verl-based 框架上实施混合 RL,结合单控制器管理 RL 间数据流和多控制器管理 RL 内数据和模型并行。验证器部署为进程服务隔离潜在故障。

Actor 和 critic 训练采用 3D 并行,rollout 生成和奖励/参考模型推理使用副本(各配置张量并行)。RL 阶段消耗 6 万 GPU 小时,奖励模型训练消耗 2.4 万 GPU 小时

🎯 评估结果

视觉编码器评估

Seed-ViT 在零样本分类基准上达到 82.5% 平均准确率,与 InternVL-C-6B(6B 参数)相当,而参数仅为其 9%。与 30 倍参数量的 EVA-CLIP-18B 相比,在多数 ImageNet 变体上准确率相当,在 ObjectNet 和 ImageNet-A 上表现更优,表明更强的真实世界变化鲁棒性。

视觉任务评估

Seed1.5-VL 在 60 个公开基准上评估,取得 38 个 SOTA

多模态推理

基准Seed1.5-VL (thinking)Seed1.5-VLGemini 2.5 ProGPT-4o
MMMU77.973.681.770.7
MathVista85.683.082.763.8
VLM are Blind92.190.884.350.4
VisuLogic35.033.031.026.3

文档与图表理解

基准Seed1.5-VL (thinking)Seed1.5-VLGemini 2.5 ProQwen 2.5-VL 72B
TextVQA81.884.276.883.5
DocVQA96.996.794.096.4
InfographicVQA91.289.384.387.3
ChartQA89.187.483.389.5

定位与计数:Seed1.5-VL 在所有定位和计数基准上取得 SOTA:

基准Seed1.5-VL (thinking)Seed1.5-VLGemini 2.5 ProQwen 2.5-VL 72B
BLINK72.170.270.664.4
RefCOCO-avg91.391.674.690.3
CountBench93.793.591.093.6
FSC-147 ↓17.918.624.528.6

3D 空间理解:在深度估计和 3D 定位上大幅超越前代 VLM:

基准Seed1.5-VL (thinking)Seed1.5-VLGemini 2.5 ProQwen 2.5-VL 72B
DA-2K91.791.973.069.6
NYU-Depth V2 ↓13.611.627.535.5
All-Angles Bench58.659.053.455.7

定位与计数 SOTA 满堂红:Seed1.5-VL 在 BLINK、LVIS-MG、VisualWebBench、RefCOCO-avg、CountBench、FSC-147 六个定位/计数基准上全部取得第一。在 LVIS-MG 上达到 73.8 F1,超越传统检测器 Grounding DINO-L(54.4)。

视频任务评估

Seed1.5-VL 在 19 个视频基准上取得 14 个 SOTA

能力维度基准Seed1.5-VLPrior SOTA
短视频MotionBench68.462.8 (GLM-4V)
短视频TVBench63.662.6 (Gemini 2.5 Pro)
短视频TempCompass83.775.8 (Gemini 2.5 Pro)
长视频MLVU82.181.2 (Gemini 2.5 Pro)
流式视频OVBench60.054.9 (PMB)
流式视频StreamBench72.868.7 (GPT-4o)
视频定位Charades-STA64.064.7 (Seed1.5-VL)
视频定位TACoS49.642.4 (SG-DETR)

智能体评估

GUI 智能体

基准Seed1.5-VLClaude 3.7 SonnetOpenAI CUA
ScreenSpot Pro60.956.457.6
ScreenSpot v295.294.490.8
OSWorld36.728.038.1
WebVoyager87.282.682.4
AndroidWorld62.146.638.5

GUI 智能体领先:Seed1.5-VL 在 WebVoyager(87.2%)和 Online-Mind2Web(76.4%)上超越 OpenAI CUA 和 Claude 3.7 Sonnet,在 AndroidWorld(62.1%)上大幅领先。在基础 VLM 中 GUI 能力显著领先。

游戏智能体:在 14 个 Poki.com 游戏上评估,Seed1.5-VL 在 2048(870.6 vs 611.2)、Hex-Frvr(1414.0 vs 651.6)等游戏上大幅超越 OpenAI CUA 和 Claude 3.7 Sonnet。长视程游戏玩法特别适合评估推理时扩展行为,Seed1.5-VL 展现出随交互轮数增加保持更高性能的强扩展性。

模型局限性

尽管在多个基准上表现优异,Seed1.5-VL 在以下方面存在局限:

  1. 精细视觉感知:对象不规则排列、颜色相似或部分遮挡时计数困难;识别图像间细微差异有时出错;复杂空间关系解读不准确

  2. 高级推理:在人类简单的任务(如华容道、迷宫导航)上表现欠佳,需要探索视觉 Chain-of-Thought 等技术

  3. 组合搜索:需要组合搜索的推理任务对现有 VLM 架构仍是挑战,代码使用和外部工具集成是未来方向

  4. 3D 空间推理:3D 对象操作和投影推理任务仍有困难,图像生成能力可能是解决方案

  5. 幻觉:当视觉输入与语言模型先验知识冲突时,模型倾向于优先考虑先验知识

💡 结论

Seed1.5-VL 是字节跳动 Seed 团队推出的视觉语言基础模型,通过 532M 参数视觉编码器和 20B 激活参数 MoE LLM 的紧凑架构,在 60 个公开基准上取得 38 个 SOTA。模型在定位、计数、3D 空间理解、文档理解(TextVQA、DocVQA、InfographicVQA)和部分推理任务(MathVista、VLM are Blind)上建立领先地位。

核心贡献包括:

  • Seed-ViT 原生分辨率编码器:三阶段预训练流程实现高效视觉感知
  • 动态帧分辨率采样:联合优化视频时空维度
  • 多样化数据合成流水线:针对 OCR、定位、计数、3D 空间等关键能力
  • 混合 RL 后训练:结合人类反馈和可验证奖励信号

通过开源模型权重,团队希望推动社区向高效智能通用智能体系统迈进,加速实现通用人工智能的愿景。


Seed1.5-VL——技术报告详解
https://choucisan.xyz/Seed1.5-VL.html
Author
choucisan
Posted on
January 25, 2026
Licensed under