Flow4Agent——光流运动先验的长视频理解引言: Flow4Agent 是首个将光流运动先验用于 LLM 视频理解的框架。核心创新包括:(1)时间粒度优化(TGO):利用粗光流聚类视频事件,结合语义先验筛选关键场景;(2)运动 Token 剪枝(MTP):利用细粒度光流剪枝帧内冗余 token。在 Video-MME 达到 64.7%,MLVU 达到 71.4%,LongVideoBench 达到 60.4%,均 2026-02-02 Notes > Video Understanding #Research #MLLM #Video Understanding #Optical Flow #Flow4Agent
RAFT——光流估计算法引言: RAFT(Recurrent All-Pairs Field Transforms)是一种用于光流估计的深度网络架构。核心创新包括:(1)全对相关体积:构建所有像素对的 4D 相关体积,同时捕获大位移和小位移;(2)循环更新算子:基于 GRU 的轻量级更新模块,仅 2.7M 参数即可迭代 100+ 次;(3)单分辨率流场:避免粗到细级联的局限性。在 KITTI 上 2026-01-31 Notes > Optical-Flow #Research #Optical Flow #RAFT #Computer Vision
Ovis2.5——技术报告详解引言: Ovis2.5 是阿里国际推出的新一代视觉语言模型,基于 Ovis 架构迭代开发。核心改进包括:(1)原生分辨率感知:用 NaViT 替代固定分辨率 ViT,消除破坏性分块,保留全局结构和细粒度细节;(2)深度推理能力:引入可选的「思考模式」,通过反思导向数据训练实现自纠和修订。Ovis2.5-9B 在 OpenCompass 达到 78.3 平均分,Ovis2. 2026-01-29 Notes > Technical Report #Research #VLM #Ovis
GLM-5——技术报告详解引言: GLM-5 是智谱 AI 和清华大学联合推出的新一代基础模型,通过 DSA(DeepSeek Sparse Attention)显著降低训练和推理成本,采用异步强化学习基础设施实现高效后训练,提出异步 Agent RL 算法提升智能体决策质量。在 8 个 ARC(Agentic、Reasoning、Coding)基准上平均超越 GLM-4.7 约 20%,Inte 2026-01-27 Notes > Technical Report #Research #Agent #LLM #GLM
Seed1.5-VL——技术报告详解引言: Seed1.5-VL 是字节跳动 Seed 团队推出的视觉语言基础模型,由 532M 参数的视觉编码器和 20B 激活参数的 MoE LLM 组成。在 60 个公开基准上取得 38 个 SOTA,包括 21/34 视觉语言基准、14/19 视频基准和 3/7 GUI 智能体任务。在 GUI 控制和游戏玩法等智能体任务上超越 OpenAI CUA 和 Claude 2026-01-25 Notes > Technical Report #Research #Seed #VLM #ByteDance #Seed1.5-VL
Kimi K2.5——技术报告详解引言: Kimi K2.5 是 Moonshot AI 推出的开源多模态智能体模型,基于 Kimi K2 的万亿参数 MoE 架构,通过「文本-视觉联合优化」和「Agent Swarm 并行智能体框架」两大核心创新,在推理、编码、视觉理解、智能体任务等多个领域实现 SOTA 性能。Agent Swarm 在 WideSearch 上将推理延迟降低 4.5 倍,Browse 2026-01-23 Notes > Technical Report #Research #Agent #VLM #Kimi
Kimi-VL——技术报告详解引言: Kimi-VL 是 Moonshot AI 推出的高效多模态视觉语言模型,采用 MoE 架构实现参数效率与性能的平衡,仅 2.8B 激活参数(LLM)+ 0.4B(ViT)即达到与更大模型相当的性能。支持 128K 上下文窗口,在 24 个公开基准中的 19 个上超越 Qwen2.5-VL-7B(后者激活参数是 Kimi-VL 的 2.59 倍)。Kimi-VL- 2026-01-21 Notes > Technical Report #Research #VLM #Kimi
Qwen3-VL——技术报告详解引言: Qwen3-VL 是 Qwen 系列目前最强大的视觉语言模型,原生支持最多 256K token 的交错上下文(文本、图像、视频),在广泛的视觉语言基准上实现了领先性能。模型家族包含稠密模型(2B/4B/8B/32B)和 MoE 模型(30B-A3B/235B-A22B),在 MMMU、MathVista、DocVQA 等关键基准上超越 GPT-5 和 Gemin 2026-01-19 Notes > Technical Report #Research #Qwen3 #VLM
Qwen3——技术报告详解引言: Qwen3(通义千问第三代)是 Qwen 模型家族的最新版本,包含 6 个 Dense 模型(0.6B 至 32B)和 2 个 MoE 模型(30B-A3B、235B-A22B)。核心创新包括:将「思考模式」与「非思考模式」融合到单一模型中,引入「思考预算」机制动态控制推理深度,以及通过「强到弱蒸馏」高效构建轻量模型。预训练使用 36 万亿 token,覆盖 11 2026-01-16 Notes > Technical Report #Research #LLM #Qwen3
API_KEY——API调用指南引言: 大模型 API 是连接开发者与 AI 能力的桥梁。相比直接使用网页端对话,API 调用让你可以将大模型能力嵌入到自己的应用、脚本和工作流中,实现批量处理、自动化任务和定制化交互。本文将以实战为导向,介绍各个主流大模型平台的 API 调用方式,帮助你快速上手。 智谱 BigModel 智谱 BigModel 开放平台 是智谱 AI 推出的大模 2026-01-15 Tech > Info #OpenAI #API #BigModel #Qwen #Seed #OpenRouter #Vertex AI #CogView #Doubao #Gemini