Kimi-VL——技术报告详解

引言: Kimi-VL 是 Moonshot AI 推出的高效多模态视觉语言模型,采用 MoE 架构实现参数效率与性能的平衡,仅 2.8B 激活参数(LLM)+ 0.4B(ViT)即达到与更大模型相当的性能。支持 128K 上下文窗口,在 24 个公开基准中的 19 个上超越 Qwen2.5-VL-7B(后者激活参数是 Kimi-VL 的 2.59 倍)。Kimi-VL-Thinking-2506 在 MathVision 上达到 56.9%,超越 Qwen2.5-VL-72B 和 GPT-4o。

✈️ 引言

随着人工智能的快速发展,人类对 AI 助手的期望已超越传统纯语言交互,越来越与世界固有的多模态特性对齐。GPT-4o 和 Google Gemini 等原生多模态模型已经能够无缝感知和解释视觉输入。更进一步,OpenAI o1 系列和 Kimi k1.5 通过在多模态输入上进行更深更长的推理,推动了更复杂问题解决的边界。

Kimi-VL 的设计目标是构建一个高效的多模态模型,在保持强大性能的同时实现参数效率。通过 MoE 架构、128K 长上下文窗口和原生分辨率视觉编码器 MoonViT,Kimi-VL 在 OCR、数学推理、智能体任务、长文档和长视频理解等多个领域展现出卓越能力。

阅读提示: 本文按原文结构依次介绍模型架构、预训练流程、后训练方法和全面评估结果。Kimi-VL 在 MathVista(68.7%)、InfoVQA(83.2%)、ScreenSpot-Pro(34.5%)等基准上取得开源模型领先性能。

🏗️ 模型架构

Kimi-VL 采用标准的三组件架构:原生分辨率视觉编码器(MoonViT)、MLP 投影器和 MoE 大语言模型。

Kimi-VL 模型架构

MoonViT:原生分辨率视觉编码器

MoonViT 是专为原生分辨率特征提取设计的视觉编码器,解决了固定分辨率处理导致的信息丢失问题。核心设计:

  • 原生分辨率支持:采用 NaViT 的 patch packing 策略,支持任意分辨率图像输入
  • 2D RoPE 位置编码:替代传统 1D 位置编码,更好地保留空间位置信息
  • 架构参数
    • Patch Size:14
    • Embed Dim:1152
    • Depth:27
    • Num Heads:16
    • 参数量:约 400M

输入图像通过双线性插值调整至的倍数,然后分割为非重叠 patch。不同图像的 patch 序列拼接为统一序列,通过注意力掩码确保跨图像 token 不相互关注。输出经过平均池化后传入 MLP 投影器。

MoE 大语言模型

Kimi-VL 采用 MoE 架构实现参数效率:

组件参数量
MoonViT0.4B
MLP 投影器-
LLM 总参数16B
LLM 激活参数2.8B
总激活参数~3.2B

MoE 架构使 Kimi-VL 以仅 2.8B 激活参数达到与 7B+ 稠密模型相当的性能,训练吞吐量比 7B 稠密 VLM 高约 60%

长上下文能力

Kimi-VL 支持 128K token 上下文窗口,通过两阶段扩展:

  1. 8K → 32K:RoPE 逆频率从 50,000 重置
  2. 32K → 128K:RoPE 逆频率重置为 800,000

Needle-in-a-Haystack 测试验证了长上下文能力:

Haystack 长度(0, 2K](2K, 4K](4K, 8K](8K, 16K](16K, 32K](32K, 64K](64K, 128K]
文本 NIAH100.0100.0100.0100.0100.0100.087.0
视频 NIAH100.0100.0100.0100.0100.0100.091.7

📊 预训练

预训练数据

Kimi-VL 的多模态预训练语料设计为提供高质量数据,使模型能够处理和理解文本、图像、视频等多种模态信息。数据分为六大类别:

字幕数据:提供基础的模态对齐和广泛的世界知识。整合 LAION、DataComp 等开源数据集和内部数据,严格限制合成字幕数据比例以减轻幻觉风险。

图文交错数据:增强多图像理解能力、提供详细图像知识、学习更长多模态上下文。有趣的是,交错数据还对维持语言能力有正向贡献。使用教科书、网页和教程等资源构建大规模内部数据。

OCR 数据:覆盖多语言文本、密集文本布局、网页内容和手写样本。遵循 OCR 2.0 原则,处理图表、表格、几何图、Mermaid 图和自然场景文本等多种光学图像类型。单页 OCR 数据外,还收集大量多页 OCR 数据激活长文档理解能力。

知识数据:从教科书、研究论文等学术材料构建多模态知识语料。精心策划的几何数据对发展视觉推理能力至关重要。使用布局解析器和 OCR 模型处理内容来源。

智能体数据:显著增强模型的定位和规划能力。建立平台管理虚拟机环境,收集截图和对应动作数据。动作空间按 Desktop、Mobile、Web 环境分类。收集人类标注的计算机使用轨迹,每个轨迹配有合成 Chain-of-Thought。

视频数据:在预训练、cooldown 和长上下文激活阶段引入大规模视频数据,实现两个核心能力:理解以图像为主导的长上下文序列(如小时级视频)、感知短视频片段中的细粒度时空对应关系。

文本数据:直接使用 Moonlight 中的数据,覆盖英语、中文、代码、数学与推理、知识五个域。

预训练阶段

预训练阶段

Kimi-VL 预训练在 LLM 文本预训练后消耗 4.4T token。为保持文本能力,所有更新 LLM 的阶段都是联合训练阶段。

阶段数据Token序列长度可训练组件
ViT 训练Alt text、合成字幕、定位、OCR2T + 0.1T8,192ViT
联合预训练文本、知识、交错、视频、智能体1.4T8,192ViT & LLM
联合 Cooldown高质量文本/多模态、学术来源0.6T8,192ViT & LLM
联合长上下文长文本、长视频、长文档0.3T32K→128KViT & LLM

ViT 训练阶段:MoonViT 在图文对上训练,文本组件包括图像 alt text、合成字幕、定位边界框和 OCR 文本。采用两个目标:SigLIP 损失和条件字幕生成的交叉熵损失:

其中。图像和文本编码器计算对比损失,文本解码器执行条件于图像编码器特征的下个 token 预测。编码器从 SigLIP SO-400M 权重初始化,采用渐进分辨率采样策略。训练观察到字幕损失在扩展 OCR 数据时的涌现,表明文本解码器已发展出 OCR 能力。2T token 训练后,再用 0.1T token 将 MoonViT 与 MoE LLM 对齐。

联合预训练阶段:混合纯文本数据(从与初始 LLM 相同分布采样)和多种多模态数据。从加载的 LLM 检查点继续训练,使用相同学习率调度器。初始步骤仅使用语言数据,然后多模态数据比例逐渐增加。

联合 Cooldown 阶段:使用高质量语言和多模态数据集继续训练。语言部分引入合成数据在数学推理、知识任务和代码生成上带来显著提升。多模态部分采用问答合成和高质量子集重放,过滤和重写学术视觉或视觉语言数据源为问答对。

联合长上下文激活阶段:扩展上下文长度从 8K 到 128K,RoPE 嵌入逆频率从 50,000 重置到 800,000。分两个子阶段,每个扩展四倍。长数据比例过滤上采样到 25%,剩余 75% 回放较短数据。长数据包含长文本、长交错数据、长视频和长文档。

🚀 后训练

监督微调(SFT)

使用 ChatML 格式进行指令优化,同时保持与 Kimi-VL 的架构一致性。优化 LLM、MLP 投影器和视觉编码器,使用纯文本和视觉语言 SFT 数据混合。监督仅应用于答案和特殊 token,系统和用户提示被掩码。

两阶段训练:

  • 32K 阶段:学习率从衰减到
  • 128K 阶段:学习率重新预热到后衰减到

指令数据

增强模型的对话能力和指令遵循能力。非推理任务(图表解释、智能体定位、OCR、图像对话等)通过人工标注构建种子数据集训练种子模型,然后收集多样化提示,使用种子模型生成多个响应,标注者排序并精化最佳响应。推理任务使用拒绝采样扩展 SFT 数据集。

推理数据

精心构建用于激活和增强模型多模态推理能力。通过类似拒绝采样的生成流水线收集合成高质量长 CoT 数据。首先收集需要多步推理的带标注 QA 数据,然后使用 Kimi k1.5 强大长 CoT 模型采样多条详细推理轨迹。错误推理链根据模型评估和基于规则的奖励过滤。

Long-CoT 监督微调

使用精化的 RL 提示集,通过提示工程构建小而高质量的长 CoT 预热数据集。数据集封装关键认知过程:

  • 规划:模型系统性地概述执行前的步骤
  • 评估:对中间步骤进行批判性评估
  • 反思:使模型能够重新考虑和精化方法
  • 探索:鼓励考虑替代解决方案

通过在这个预热数据集上进行轻量 SFT,有效引导模型内化这些多模态推理策略。

强化学习

采用在线策略镜像下降变体作为 RL 算法,迭代精化策略模型提高问题求解准确率。第次训练迭代中,优化目标:

其中是奖励模型,根据真实答案对提议答案的正确性赋值控制正则化程度。

效率增强策略

  • 基于长度的奖励:惩罚过长响应,缓解过度思考问题
  • 课程采样:利用难度标签聚焦最有教学价值的示例
  • 优先采样:利用每实例成功率优化学习轨迹

后训练阶段

🎯 评估结果

与 SOTA 模型对比

Kimi-VL 在多个基准上与领先 VLM 对比,尽管架构更参数高效(2.8B+0.4B 激活参数),在多个关键领域展现竞争或优越性能。

大学级学术问题

基准Kimi-VL-A3BDeepSeek-VL2Qwen2.5-VL-7BGemma3-12B
MMMU-val57.051.158.659.6
VideoMMMU52.644.447.457.2
MMVU-val52.252.150.157.0

通用视觉能力

基准Kimi-VL-A3BQwen2.5-VL-7BGemma3-12BGPT-4o
MMBench-EN83.182.674.683.1
AI2D84.983.978.184.6
MMVet66.767.164.969.1
RealWorldQA68.168.559.175.4

数学推理

基准Kimi-VL-A3BQwen2.5-VL-7BDeepSeek-VL2GPT-4o
MathVista68.768.262.863.8
MathVision21.425.117.330.4

OCR 与文档理解

基准Kimi-VL-A3BQwen2.5-VL-7BDeepSeek-VL2GPT-4o
InfoVQA83.282.678.180.7
OCRBench867864811815

OCR 能力领先:Kimi-VL 在 InfoVQA(83.2%)和 OCRBench(867)上超越所有对比模型包括 GPT-4o,展现出卓越的文字识别和文档理解能力。

智能体定位与多轮交互

基准Kimi-VL-A3BQwen2.5-VL-7BGPT-4o
ScreenSpot-V292.886.818.1
ScreenSpot-Pro34.529.00.8
OSWorld8.222.55.03
WindowsAgentArena10.43.49.4

智能体能力突出:Kimi-VL 在 ScreenSpot-Pro(34.5%)上大幅领先 Qwen2.5-VL-7B(29.0%)和 GPT-4o(0.8%),在 OSWorld(8.22%)和 WindowsAgentArena(10.4%)上均超越 GPT-4o。这表明模型具有强大的 GUI 理解和操作能力。

长文档与长视频理解

基准Kimi-VL-A3BQwen2.5-VL-7BGPT-4o
MMLongBench-Doc35.129.642.8
Video-MME (w/o sub)67.865.171.9
MLVU-MCQ74.270.264.6
LongVideoBench64.556.066.7

视频感知

基准Kimi-VL-A3BQwen2.5-VL-7BGPT-4o
EgoSchema78.565.072.2
VSI-Bench37.434.234.0
TOMATO31.727.637.7

Kimi-VL-Thinking:推理扩展版本

通过长 CoT 激活和强化学习训练的思考模型,显著提升多模态推理能力:

基准Kimi-VL-ThinkingKimi-VL提升
MathVista71.368.7+2.6%
MMMU-val61.757.0+4.7%
MathVision36.821.4+15.4%

Kimi-VL-Thinking 在推理基准上与 SOTA 模型竞争:

基准Kimi-VL-ThinkingGPT-4oQwen2.5-VL-7BQVQ-72B
MathVision36.830.425.135.9
MathVista71.363.868.271.4
MMMU-val61.769.158.670.3

测试时扩展:Kimi-VL-Thinking 展现出强大的测试时扩展特性。增加最大思考 token 长度可在所有三个基准上一致提升准确率。在 MathVision 上,准确率从 1K token 的 18.7% 稳步上升到 16K token 的 36.8%。但在 MathVista 上,性能在 4K token 时饱和(70.9%),表明该任务所需推理深度已在相对短的上下文中捕获。

Kimi-VL-Thinking-2506:集成思考模型

更新的推理变体不仅更智能,还将 Kimi-VL-A3B-Instruct 的感知、视频、长文档和 OS 智能体能力集成到思考模型中。

推理能力提升

基准Kimi-VL-ThinkingKimi-VL-Thinking-2506提升
MathVision36.856.9+20.1%
MathVista71.380.1+8.4%
MMMU-Pro43.046.3+3.2%
VideoMMMU55.565.2+9.7%

Kimi-VL-Thinking-2506 推理突破:在 MathVision 上达到 56.9%,超越 Qwen2.5-VL-72B(38.1%)和 Kimi k1.5(38.6%);在 MathVista 上达到 80.1%,超越所有对比模型。同时平均输出 token 长度减少约 20%(如 MMMU-val:2.9K→2.4K),更高效用户友好。

非推理任务能力

基准Kimi-VL-A3B-InstructKimi-VL-Thinking-2506
MMBench-EN82.984.4
MMStar61.770.4
ScreenSpot-Pro35.452.8
OSWorld-G41.652.5
MMLongBench-Doc35.142.1

MoonViT 在 2506 版本上持续训练(最大输入像素 3.2M),在高分辨率感知和 OS 定位基准上大幅提升:ScreenSpot-Pro(52.8%)、OSWorld-G(52.5%),成为首个匹配 GPT-4o 的开源模型。

💡 结论与局限

Kimi-VL 是一个平衡多模态和纯文本预训练/后训练的 VLM,采用 MoE 架构实现可扩展效率。128K 扩展上下文窗口支持长文本和视频中的精确检索,原生分辨率编码器 MoonViT 在超高分辨率视觉任务中保持高准确率和低计算开销。

Kimi-VL 在多模态、长上下文和高分辨率任务中展现出强大的适应性和效率,在 MathVista、InfoVQA、ScreenSpot-Pro、OSWorld 等多个基准上取得开源模型领先性能。

局限与未来工作

  1. 模型规模:当前模型规模对高度专业化或领域特定问题仍受限,难以处理极复杂场景
  2. 推理上限:推理能力虽已强大,但对需要多步推理或更深上下文理解的复杂任务尚未达到理论上限
  3. 长上下文能力:注意力层参数仅相当于 3B 模型,对于极长序列或大容量上下文信息的高级应用仍不足

未来将通过扩大模型规模、扩展预训练数据和增强后训练算法应对这些挑战。下一步包括优化 Kimi-VL 并发布更大版本,以及精化后训练和测试时扩展机制以获得更好的思考模型。


Kimi-VL——技术报告详解
https://choucisan.xyz/Kimi-VL.html
Author
choucisan
Posted on
January 21, 2026
Licensed under