choucisan's blog

VideoAuto-R1——按需推理的视频理解框架

VideoAuto-R1——按需推理的视频理解框架

引言：该研究提出 VideoAuto-R1，采用「思一次、答两次」训练范式的自适应视频推理框架。它解决了「CoT 推理在视频任务中效果有限且成本高」「自适应推理在视频领域不稳定」「直接回答常可匹敌 CoT 性能」等问题。在 VideoMME（67.3%）、VideoMMMU（58.6%）、时序定位基准上实现 SOTA，响应长度从 149 降至 44 tokens。

2026-01-13

Notes > Video Understanding

#Research #GRPO #Framework #Agent #Reinforcement Learning

VideoMind——基于 Chain-of-LoRA 的长视频推理框架

VideoMind——基于 Chain-of-LoRA 的长视频推理框架

引言： VideoMind 是一个基于角色工作流和 Chain-of-LoRA 的视频语言 Agent，通过「Planner-Grounder-Verifier-Answerer」四角色协作实现长视频的时序锚定推理。该方法解决了「时序锚定理解需求」「视觉 CoT 无法显式定位」「多模态推理能力缺失」等核心问题，在 14 个基准上达到 SOTA，包括 Grounded Vi

2026-01-11

Notes > Video Understanding

#Research #Framework #Agent #LoRA

Video-MTR——基于RL的长视频多轮推理框架

Video-MTR——基于RL的长视频多轮推理框架

引言：该研究提出 Video-MTR（Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding）框架，通过强化学习驱动的多轮推理机制，解决了长视频理解中「静态推理丢失关键信息」「外部 VLM 难以端到端训练」「长时依赖难以捕捉」等核心问题。Video-MTR 在 VideoMME（Lo

2026-01-09

Notes > Video Understanding

#Research #PPO #Framework #Agent #Reinforcement Learning

VideoDeepResearch——基于 Agent 工具调用的长视频理解框架

VideoDeepResearch——基于 Agent 工具调用的长视频理解框架

引言：该研究提出 VideoDeepResearch，一个基于纯文本大推理模型（LRM）与模块化多模态工具包的 Agent 框架，解决了「长视频上下文窗口限制」「RAG 方法泛化能力弱」「计算资源消耗大」等核心问题。该方法在 MLVU、VideoMME-L、LVBench 等基准上取得 SOTA，平均分 66.7 超越 GPT-4o (60.6)。

2026-01-07

Notes > Video Understanding

#Research #Framework #Agent #Long Video

Spatial-MLLM——提升视觉基础空间智能的MLLM

Spatial-MLLM——提升视觉基础空间智能的MLLM

引言：该研究提出 Spatial-MLLM，一种仅依赖纯 2D 视觉输入的空间推理框架，解决了「视频 MLLM 空间感知能力弱」「缺乏 3D 结构先验」「采样策略对空间任务不友好」等核心问题。在 VSI-Bench、ScanQA、SQA3D 等空间推理基准上取得 SOTA，仅用 4B 参数即超越 72B 参数的 Gemini-1.5 Pro，展示了高效的架构设计价值。

2026-01-05

Notes > Spatial Intelligence

#Research #GRPO #VGGT #Framework

GDPO——分组奖励解耦归一化策略优化算法

GDPO——分组奖励解耦归一化策略优化算法

引言： GDPO（Group reward-Decoupled Normalization Policy Optimization）是一种针对多奖励强化学习优化的新方法。它解决了 GRPO（Group Relative Policy Optimization）在处理多奖励时存在的奖励信号压缩问题，通过对每个奖励进行独立的分组归一化，保留了不同奖励组合之间的细微差异，从而实

2026-01-03

Notes > Reinforcement Learning

#Research #Algorithm #GDPO #Multi-reward

SAPO——软自适应策略优化算法

SAPO——软自适应策略优化算法

引言：该研究提出 SAPO（Soft Adaptive Policy Optimization）算法，通过引入温度控制的软门控函数替代传统的硬裁剪机制，解决了 GRPO 和 GSPO 中存在的「梯度不连续」「正负样本不对称处理」等问题。SAPO 结合了 GSPO 的序列级一致性优势和 GRPO 的 token 级自适应能力，在 Qwen3 和 Qwen3-VL 的训练中

2025-12-29

Notes > Reinforcement Learning

#Research #Algorithm #SAPO

GSPO——序列级策略优化算法

GSPO——序列级策略优化算法

引言：该研究提出 GSPO（Group Sequence Policy Optimization）算法，通过将优化粒度从 token 级别提升到 sequence 级别，解决了 GRPO 中「目标函数设计缺陷」「梯度噪声累积」「MoE 训练不稳定」等根本性问题。GSPO 已成功应用于 Qwen3 模型训练，在相同计算量下实现更好的性能和稳定性，且无需 Routing R

2025-12-28

Notes > Reinforcement Learning

#Research #Algorithm #GSPO

DAPO——动态采样策略优化算法

DAPO——动态采样策略优化算法

引言：该研究提出 DAPO（Dynamic Sampling Policy Optimization）算法，通过四项关键技术解决长思维链 RL 训练中的「熵崩溃」「梯度失效」「奖励噪声」等痛点。基于 Qwen2.5-32B 模型，DAPO 在 AIME 2024 数学竞赛中达成 50% 准确率，仅用 50% 训练步数即超越 DeepSeek-R1-Zero 的 47%

2025-12-27

Notes > Reinforcement Learning

#Research #Algorithm #DAPO

GRPO——组相对策略优化算法

GRPO——组相对策略优化算法

引言：群体相对策略优化（GRPO）是由 DeepSeek 团队提出的一种专为大语言模型设计的高效强化学习算法。传统的 PPO 算法虽然强大，但需要维护一个与策略模型同等规模的价值网络（Critic），这对显存带来了巨大的压力。GRPO 创造性地摒弃了 Critic 网络，转而利用群体采样的统计特征来估计优势函数。这种方法不仅大幅降低了训练时的显存占用和计算成本，还在数学

2025-12-25

Notes > Reinforcement Learning

#Research #Algorithm #GRPO