VideoAuto-R1——按需推理的视频理解框架引言: 该研究提出 VideoAuto-R1,采用「思一次、答两次」训练范式的自适应视频推理框架。它解决了「CoT 推理在视频任务中效果有限且成本高」「自适应推理在视频领域不稳定」「直接回答常可匹敌 CoT 性能」等问题。在 VideoMME(67.3%)、VideoMMMU(58.6%)、时序定位基准上实现 SOTA,响应长度从 149 降至 44 tokens。 2026-01-13 Notes > Video Understanding #Research #GRPO #Framework #Agent #Reinforcement Learning
VideoMind——基于 Chain-of-LoRA 的长视频推理框架引言: VideoMind 是一个基于角色工作流和 Chain-of-LoRA 的视频语言 Agent,通过「Planner-Grounder-Verifier-Answerer」四角色协作实现长视频的时序锚定推理。该方法解决了「时序锚定理解需求」「视觉 CoT 无法显式定位」「多模态推理能力缺失」等核心问题,在 14 个基准上达到 SOTA,包括 Grounded Vi 2026-01-11 Notes > Video Understanding #Research #Framework #Agent #LoRA
Video-MTR——基于RL的长视频多轮推理框架引言: 该研究提出 Video-MTR(Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding)框架,通过强化学习驱动的多轮推理机制,解决了长视频理解中「静态推理丢失关键信息」「外部 VLM 难以端到端训练」「长时依赖难以捕捉」等核心问题。Video-MTR 在 VideoMME(Lo 2026-01-09 Notes > Video Understanding #Research #PPO #Framework #Agent #Reinforcement Learning
VideoDeepResearch——基于 Agent 工具调用的长视频理解框架引言: 该研究提出 VideoDeepResearch,一个基于纯文本大推理模型(LRM)与模块化多模态工具包的 Agent 框架,解决了「长视频上下文窗口限制」「RAG 方法泛化能力弱」「计算资源消耗大」等核心问题。该方法在 MLVU、VideoMME-L、LVBench 等基准上取得 SOTA,平均分 66.7 超越 GPT-4o (60.6)。 2026-01-07 Notes > Video Understanding #Research #Framework #Agent #Long Video
Spatial-MLLM——提升视觉基础空间智能的MLLM引言: 该研究提出 Spatial-MLLM,一种仅依赖纯 2D 视觉输入的空间推理框架,解决了「视频 MLLM 空间感知能力弱」「缺乏 3D 结构先验」「采样策略对空间任务不友好」等核心问题。在 VSI-Bench、ScanQA、SQA3D 等空间推理基准上取得 SOTA,仅用 4B 参数即超越 72B 参数的 Gemini-1.5 Pro,展示了高效的架构设计价值。 2026-01-05 Notes > Spatial Intelligence #Research #GRPO #VGGT #Framework
GDPO——分组奖励解耦归一化策略优化算法引言: GDPO(Group reward-Decoupled Normalization Policy Optimization)是一种针对多奖励强化学习优化的新方法。它解决了 GRPO(Group Relative Policy Optimization)在处理多奖励时存在的奖励信号压缩问题,通过对每个奖励进行独立的分组归一化,保留了不同奖励组合之间的细微差异,从而实 2026-01-03 Notes > Reinforcement Learning #Research #Algorithm #GDPO #Multi-reward
SAPO——软自适应策略优化算法引言: 该研究提出 SAPO(Soft Adaptive Policy Optimization)算法,通过引入温度控制的软门控函数替代传统的硬裁剪机制,解决了 GRPO 和 GSPO 中存在的「梯度不连续」「正负样本不对称处理」等问题。SAPO 结合了 GSPO 的序列级一致性优势和 GRPO 的 token 级自适应能力,在 Qwen3 和 Qwen3-VL 的训练中 2025-12-29 Notes > Reinforcement Learning #Research #Algorithm #SAPO
GSPO——序列级策略优化算法引言: 该研究提出 GSPO(Group Sequence Policy Optimization)算法,通过将优化粒度从 token 级别提升到 sequence 级别,解决了 GRPO 中「目标函数设计缺陷」「梯度噪声累积」「MoE 训练不稳定」等根本性问题。GSPO 已成功应用于 Qwen3 模型训练,在相同计算量下实现更好的性能和稳定性,且无需 Routing R 2025-12-28 Notes > Reinforcement Learning #Research #Algorithm #GSPO
DAPO——动态采样策略优化算法引言: 该研究提出 DAPO(Dynamic Sampling Policy Optimization)算法,通过四项关键技术解决长思维链 RL 训练中的「熵崩溃」「梯度失效」「奖励噪声」等痛点。基于 Qwen2.5-32B 模型,DAPO 在 AIME 2024 数学竞赛中达成 50% 准确率,仅用 50% 训练步数即超越 DeepSeek-R1-Zero 的 47% 2025-12-27 Notes > Reinforcement Learning #Research #Algorithm #DAPO
GRPO——组相对策略优化算法引言: 群体相对策略优化(GRPO)是由 DeepSeek 团队提出的一种专为大语言模型设计的高效强化学习算法。传统的 PPO 算法虽然强大,但需要维护一个与策略模型同等规模的价值网络(Critic),这对显存带来了巨大的压力。GRPO 创造性地摒弃了 Critic 网络,转而利用群体采样的统计特征来估计优势函数。这种方法不仅大幅降低了训练时的显存占用和计算成本,还在数学 2025-12-25 Notes > Reinforcement Learning #Research #Algorithm #GRPO