GLM-5——技术报告详解
引言: GLM-5 是智谱 AI 和清华大学联合推出的新一代基础模型,通过 DSA(DeepSeek Sparse Attention)显著降低训练和推理成本,采用异步强化学习基础设施实现高效后训练,提出异步 Agent RL 算法提升智能体决策质量。在 8 个 ARC(Agentic、Reasoning、Coding)基准上平均超越 GLM-4.7 约 20%,Intelligence Index v4.0 得分 50,成为首个达到该分数的开源权重模型。
✈️ 引言
追求通用人工智能(AGI)不仅需要扩展模型参数,还需要从根本上重新思考智能效率和自主改进架构。GLM-4.5 展示了将 Agentic、Reasoning、Coding(ARC)能力统一到 MoE 架构中可以实现跨基准的 SOTA 结果。然而,随着大语言模型从被动知识库转向主动问题解决器,计算成本和真实世界适应性——尤其是复杂软件工程——已成为主要瓶颈。
GLM-5 代表了性能和效率的范式转变,在 ArtificialAnalysis.ai、LMArena Text 和 LMArena Code 等主要开放排行榜上实现 SOTA。更重要的是,GLM-5 重新定义了真实世界编码的标准,展现出处理超越 SWE-bench 等传统静态基准的复杂端到端软件开发任务的空前能力。

核心成果: GLM-5 在 Intelligence Index v4.0 上得分 50,相比 GLM-4.7 的 42 分提升了 8 分,是首个达到该分数的开源权重模型。在 LMArena Text 和 Code Arena 上均为开源模型第一,与 Claude Opus 4.5 和 Gemini 3 Pro 相当。
技术贡献:
DSA 架构创新:采用 DeepSeek Sparse Attention 显著降低训练和推理成本,使模型参数扩展到 744B,训练 token 预算达到约 28.5T
异步 RL 基础设施:解耦生成与训练,最大化 GPU 利用率,消除同步瓶颈
异步 Agent RL 算法:专门优化长视程交互的规划和自纠能力
全栈国产芯片适配:从底层内核到上层推理框架完成华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原七大平台深度优化

阅读提示: 本文按原文结构依次介绍预训练架构创新、后训练流程、智能体工程和全面评估结果。GLM-5 在 BrowseComp(75.9%)、LongBench v2(64.5%)、SWE-bench Multilingual(73.3%)等基准上取得开源模型 SOTA。
🏗️ 预训练
GLM-5 的基座模型经历两个阶段:通用语言和编码能力的预训练,以及智能体和长上下文能力的中期训练。总训练 token 预算达到 28.5 万亿。
模型架构
模型规模扩展。 GLM-5 扩展到 256 个专家,层数减少到 80 层以最小化专家并行通信开销,形成 744B 参数模型(40B 激活参数),总参数量为 GLM-4.5(355B 总参数、32B 激活参数)的两倍。
多潜在注意力(MLA)。 通过减少键值向量,MLA 匹配 Grouped-Query Attention(GQA)的效果,同时提供更好的 GPU 内存节省和更快的长上下文处理速度。
然而,在使用 Muon 优化器的实验中,MLA(576 维潜在 KV-cache)无法匹配 GQA-8(2048 维 KV-cache)的性能。为此,作者提出 Muon Split 适配方案:将矩阵分割为不同头的独立矩阵并分别应用矩阵正交化,使不同注意力头的投影权重以不同尺度更新。
| 模型 | Hellaswag | MMLU | C-Eval | RACE | BBH | GSM8K | HumanEval |
|---|---|---|---|---|---|---|---|
| GQA-8 | 77.3 | 61.2 | 60.0 | 79.6 | 53.3 | 47.6 | 38.5 |
| MLA | 77.3 | 61.5 | 59.7 | 77.8 | 48.9 | 46.2 | 33.5 |
| MLA + Muon Split | 77.8 | 62.5 | 62.1 | 79.9 | 51.8 | 45.0 | 36.7 |
| MLA-256 + Muon Split | 77.4 | 62.0 | 59.9 | 79.6 | 51.3 | 47.5 | 36.6 |
MLA 的另一个缺点是解码期间计算成本高。GLM-5 将头维度从 192 增加到 256,注意力头数量减少 1/3,保持训练计算和参数数量不变的同时降低解码计算量。
参数共享的多 Token 预测(MTP)。 MTP 增强基座模型性能并作为推测解码的草稿模型。DeepSeek-V3 使用单层 MTP 在推理时预测下 2 个 token,存在训练-推理不匹配问题。GLM-5 提出在训练期间共享 3 个 MTP 层的参数,保持草稿模型内存成本与 DeepSeek-V3 一致的同时提高接受率。GLM-5 的接受长度(2.76)超过 DeepSeek-V3.2(2.55)。
DSA 持续预训练
DSA 的核心理念是用动态细粒度选择机制替代传统的密集
| 模型 | MQ-NIAH-128k | MV-NIAH-128k | SQuAD-128k | HotpotQA-128k |
|---|---|---|---|---|
| MLA | 100.0 | 95.5 | 79.7 | 66.3 |
| DSA | 100.0 | 97.0 | 86.0 | 63.0 |
DSA 从中期训练结束的基座模型开始,经历 1000 步 warmup(每步 14 个序列、最大学习率 5e-3),然后进行 20B token 的稀疏适应训练。尽管训练预算远小于 DeepSeek-V3.2(943.7B token),但足以使 DSA 模型匹配原始 MLA 模型的性能。
DSA 效率收益: DSA 将长序列注意力计算减少约 1.5-2 倍,对推理密集型智能体至关重要,能以一半 GPU 成本处理 128K 上下文。更重要的是,DSA 按构造是无损的——其闪电索引器实现 token 级稀疏而不丢弃任何长程依赖。
高效注意力变体消融。 作者在 GLM-9B 上探索了多种高效注意力机制:
| 模型 | RULER 64K/128K | MRCR 64K/128K | HELMET-ICL 64K/128K | RepoQA 64K/128K |
|---|---|---|---|---|
| GLM-9B (Full) | 85.35/75.28 | 36.53/35.39 | 77.68/77.36 | 69.00/65.83 |
| SWA Interleave | 65.94/44.93 ↓19/↓30 | 30.03/28.83 ↓7/↓7 | 75.96/63.52 ↓2/↓14 | 50.33/39.33 ↓19/↓27 |
| SWA Pattern | 83.72/69.59 ↓2/↓6 | 35.02/33.58 ↓2/↓2 | 76.48/74.60 ↓1/↓3 | 62.33/51.17 ↓7/↓15 |
| GDN | 76.76/64.00 ↓9/↓11 | 31.72/30.22 ↓5/↓5 | 76.88/74.84 ↓1/↓3 | 65.50/56.17 ↓4/↓10 |
| SimpleGDN | 81.76/67.03 ↓4/↓8 | 33.03/31.27 ↓4/↓4 | 79.80/81.84 ↑2/↑4 | 65.50/58.50 ↓4/↓7 |
所有高效注意力方法都存在精度损失——RULER@128K 上最多损失 5.69 分,RepoQA@128K 上最多损失 14.66 分——因为持续训练适应期间不可避免的信息丢失。而 DSA 按构造是无损的,可应用于所有层而不降低质量。
预训练数据
Web 数据。 在 GLM-4.5 数据流水线基础上,引入基于句子嵌入的 DCLM 分类器识别标准分类器之外的高质量数据。使用世界知识分类器(基于 Wikipedia 和 LLM 标注数据优化)从低质量数据中蒸馏有价值信息。
代码数据。 扩展代码预训练语料,刷新主要代码托管平台快照和更多包含代码的网页,模糊去重后唯一 token 增加 28%。修复 Software Heritage 代码文件的元数据对齐问题,采用更准确的语言分类流水线。为更多低资源编程语言训练专用分类器。
数学与科学数据。 从网页、书籍和论文收集高质量数学与科学数据,优化网页内容提取和 PDF 解析机制。使用大语言模型评分候选文档,仅保留最具教育价值的内容。对于长上下文文档,开发分块-聚合评分算法提高评分准确性。
中期训练
扩展上下文和训练规模。 分三阶段扩展上下文窗口:32K(1T token)、128K(500B token)、200K(50B token)。相比 GLM-4.5 的 128K 最大值,额外的 200K 阶段显著提升处理超长文档和复杂多文件代码库的能力。
软件工程数据。 保留仓库级代码文件、commit diff、GitHub issue、pull request 和相关源文件拼接的训练范式。放宽仓库级过滤标准扩展合格仓库池,获得约 1000 万 issue-PR 对,同时加强单个 issue 级别的质量过滤。
长上下文数据。 包含自然数据和合成数据。自然数据来自书籍、学术论文和通用预训练语料,经过多阶段过滤。合成数据受 NextLong 和 EntropyLong 启发,使用交错打包技术聚合高相似度文本产生序列,缓解「迷失在中间」现象。在 200K 阶段,额外引入 MRCR 类数据增强扩展多轮对话中的召回能力。
训练基础设施
内存效率:
- 灵活 MTP 放置:将 MTP 输出层与主输出层共置于最终阶段实现参数共享
- 流水线 ZeRO2 梯度分片:每个阶段仅存储完整梯度的 1/dp 分片
- Muon 分布式优化器的零冗余通信:限制 all-gather 到每个 rank 拥有的参数分片
- 流水线激活卸载:前向执行后将激活卸载到主机内存,反向执行前重新加载
- 序列分块输出投影:将输入序列分割为小块,独立计算投影和损失
并行效率:
- 高效延迟权重梯度计算:延迟关键路径上的部分权重梯度计算以减少流水线气泡
- 高效长序列训练:负载感知序列重排序、注意力计算动态重分配、灵活划分数据并行 rank 为可变大小的上下文并行组
INT4 量化感知训练。 在 SFT 阶段应用 INT4 QAT 以提供低精度下的更好准确率,开发适用于训练和离线量化的量化内核,确保训练和推理之间的位级行为一致性。
🚀 后训练
GLM-5 的后训练将基座模型转化为具有强推理、编码和智能体能力的助手。采用渐进式对齐策略:多任务监督微调(SFT)引入交错思考模式,专用强化学习(RL)阶段处理推理和智能体任务,通用 RL 阶段实现人类风格对齐,最后通过策略内跨阶段蒸馏减轻能力遗忘。

监督微调
相比 GLM-4.5,GLM-5 显著扩展了 Agent 和 Coding 数据规模,覆盖三大类别:
- 通用聊天:问答、写作、角色扮演、翻译、多轮对话、长上下文交互
- 推理:数学、编程、科学推理
- 编码与智能体:前端和后端工程代码、工具调用、编码智能体、搜索智能体、通用智能体
思考模式。 GLM-5 支持三种思考模式:

- 交错思考(Interleaved Thinking):模型在每次响应和工具调用前思考,提升指令遵循和生成质量
- 保留思考(Preserved Thinking):在编码智能体场景中,模型自动保留多轮对话中的所有思考块,复用现有推理而非从头重新推导
- 逐轮思考(Turn-level Thinking):支持会话内逐轮控制推理——轻量请求禁用思考降低延迟/成本,复杂任务启用思考提高准确性和稳定性
推理强化学习
RL 算法主干。 基于 GRPO 并引入 IcePop 技术缓解训练-推理不匹配,显式区分训练策略
其中训练-推理不匹配比率
DSA RL 洞察。 在 DSA 架构上进行大规模 RL 训练时,检索的 top-k 结果对 RL 稳定性至关重要。采用确定性 top-k 算子(torch.topk)而非非确定性 CUDA 实现,有效解决训练-推理不匹配问题。
混合域推理 RL。 在数学、科学、代码和工具集成推理(TIR)四个域进行混合 RL 训练,为每个域分配专门的判断模型或评估系统产生二值结果奖励。整体混合保持各域大致平衡。
智能体强化学习
为促进 GLM-5 的智能体性能,开发了完全异步解耦的 RL 框架,在编码和搜索智能体任务上优化。原生同步 RL 在长视程智能体展开期间遭受严重的 GPU 空闲时间,通过中央多任务展开编排器解耦推理和训练引擎,实现跨异构智能体工作负载的高吞吐联合训练。
为在异步离策略条件下保持训练稳定性,引入两个关键机制:
- Token-in-Token-out(TITO)网关:消除重新分词不匹配,保留精确的动作级对应
- 直接双边重要性采样:对展开对数概率应用 token 级裁剪
,高效控制离策略偏差
通用强化学习
多维优化目标。 将通用 RL 的优化目标分解为三个互补维度:
- 基础正确性:目标是最小化错误率,包括指令遵循失败、逻辑不一致、事实错误、知识幻觉、语言不流畅
- 情商:优化超越核心正确性的用户体验,使响应更具共情力、洞察力、风格接近自然人类交流
- 任务特定质量:在各任务域内将响应从「正确」提升到「高质量」
混合奖励系统。 集成三种互补奖励信号:
- 规则奖励:精确可解释,但限于可表达为确定性规则的方面
- 结果奖励模型(ORM):低方差高效率,但更易受奖励黑客攻击
- 生成奖励模型(GRM):更鲁棒但方差更高
人在环风格对齐。 显式引入高质量人类撰写响应作为风格和质量锚点,鼓励模型采用更自然、人类对齐的响应模式。
策略内跨阶段蒸馏
在多阶段 RL 流水线中,顺序优化不同目标可能导致先前获得能力的累积退化。作为最终阶段,采用策略内蒸馏算法快速恢复早期 SFT 和 RL 阶段获得的技能。
使用前一训练阶段的最终检查点作为教师模型,从对应教师的 RL 训练集采样训练提示并按适当比例混合。训练损失通过替换优势项获得:
RL 训练基础设施:slime 框架
继续使用 slime 作为 GLM-5 的统一后训练基础设施:
- 可扩展性:通过高度可定制的展开和基于服务器的展开执行扩展任务覆盖
- 规模扩展:混合精度训练/展开、MTP、Prefill-Decode 分离显著提升吞吐
- 鲁棒性:心跳驱动的展开容错和路由器级服务器生命周期管理
尾延迟优化。 对 RL 展开,优化目标不是聚合吞吐而是端到端延迟,由每步最慢样本决定。采用:
- 无队列服务:多节点推理配合 DP-attention 提供 KV-cache 容量
- FP8 展开和 MTP:减少每 token 延迟,在小批量解码制度下尤其有效
- PD 分离:防止多轮 RL 中 prefill-decode 干扰
🤖 智能体工程
GLM-5 描述了从「vibe coding」(人类提示)到「智能体工程」(AI 智能体自主编码)的转变。为支持这些长视程任务,GLM-5 利用完全异步解耦的 RL 框架,通过减少智能体展开期间的空闲时间显著提升 GPU 利用率。
智能体任务的异步 RL
采用组策略优化算法。对每个问题 $x$,从前一策略 $\pi_{\text{old}}$ 采样 $K$ 个智能体轨迹 $\{y_1,\dots,y_K\}$,优化目标:
其中
异步 RL 设计。 由于展开过程的长尾特性,原生同步 RL 训练在智能体任务严重不平衡的展开时引入大量气泡,导致大 GPU 空闲时间。采用完全异步训练范式提升 GPU 利用率和训练效率:将训练引擎和推理引擎解耦到不同 GPU 设备,推理引擎持续生成轨迹,生成轨迹数达到阈值后发送到训练引擎更新模型。
服务器多任务训练设计。 为解决多任务 RL 中轨迹生成的异构性,引入基于服务器的多任务展开编排器。每个任务实现独立的展开和奖励逻辑作为微服务,向中央编排器注册管理。在展开阶段,中央编排器控制每任务展开比例和生成速度,实现跨任务均衡数据收集。
优化异步训练稳定性:
Token-in-Token-out vs Text-in-Text-out:TITO 保留推理引擎产生的精确分词和解码 token 流,避免重新分词引入的 token 边界、空白/规范化处理、截断、特殊 token 放置的微妙不匹配
直接双边重要性采样 token 裁剪:将重要性采样比率计算为
,通过双边校准 token 级掩码策略限制信任区域为 丢弃离策略和噪声样本:记录展开时使用的策略权重版本,丢弃过于陈旧的样本;记录失败原因,排除环境崩溃导致的失败样本
DP 感知路由:使用一致性哈希将每个展开 ID 映射到固定 DP rank,避免跨 rank KV cache 未命中,最大化多轮智能体工作负载的 KV 复用
智能体环境扩展
软件工程(SWE)环境。 基于 RepoLaunch 框架构建环境设置流水线,自动分析仓库安装和依赖设置,构建可执行环境并生成测试命令。使用 LLM 生成语言感知的日志解析函数,提取 Fail-to-Pass(F2P)和 Pass-to-Pass(P2P)测试用例。构建超过 10K 可验证环境,跨越 9 种编程语言。
终端环境。 设计智能体数据合成流水线:从种子任务开始,LLM 头脑风暴生成大量可验证终端任务草案,构建智能体实例化为具体任务(结构化任务描述、Docker 执行环境、测试脚本),精化智能体迭代优化生成的任务。流水线产生数千个多样化可验证终端智能体环境,Docker 构建准确率超过 90%。
搜索任务。 构建数据合成流水线产生挑战性多跳问答对。从早期搜索智能体轨迹收集超过 200 万高信息网页,LLM 执行语义解析提取结构化信息构建 Web 知识图谱(WKG)。采样低频实体作为种子节点扩展多跳邻域形成完整子图,转换为隐含多实体关系链的问题。三阶段流水线平衡难度和正确性:移除无工具推理模型正确回答的问题、过滤早期智能体可解决的问题、验证智能体验证问题-答案一致性。
搜索智能体的上下文管理。 在 BrowseComp 上采用 Keep-recent-k 策略,当交互历史超过阈值

GLM-5 在 BrowseComp 上从 55.3%(无 Keep-recent-k)提升到 62.0%(Keep-recent-k),结合 Discard-all 达到 75.9%。
分层上下文管理收益: Keep-recent-k 策略将 BrowseComp 从 55.3% 提升到 62.0%,结合 Discard-all 形成 Hierarchical Context Management 后达到 75.9%,超越所有开源模型。这表明智能体在超长上下文(如超过 100K token)下性能显著下降,主动上下文控制至关重要。
幻灯片生成。 采用自改进流水线:SFT 初始化基础能力 → 多级奖励 RL → 拒绝采样微调。多级奖励包括:
- Level-1 静态标记属性:位置、间距、颜色、排版、饱和度等样式属性
- Level-2 运行时渲染属性:DOM 节点宽度、高度、边界框等几何布局指标
- Level-3 视觉感知特征:异常空白模式检测等辅助信号
严格遵循 16:9 宽高比的页面比例从 40% 提升到 92%。人工评估显示,相比 GLM-4.5,GLM-5 在内容质量(60%)、布局合理性(57.5%)、视觉美感(65%)上均获胜,总体胜率达 67.5%。
🏭 国产芯片适配
GLM-5 完成华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原七大主流国产芯片平台的全栈适配,从底层内核到上层推理框架深度优化。以昇腾 Atlas 系列为案例:
混合精度 W4A8 量化。 为在单台 Atlas 800T A3 上部署 750B 参数的 GLM-5,实施复杂混合精度量化策略:标准 Attention 和 MLP 块使用 W8A8,MoE 专家压缩为 W4A8。采用 QuaRot 算法抑制异常值,Flex_AWQ_SSZ 进行缩放校准。
高性能融合内核。 开发 Lightning Indexer(融合评分计算、ReLU、TopK)、Sparse Flash Attention(优化 GLM-5 稀疏模式)、MLAPO(融合 13 个小预处理算子)等定制融合内核。
专用推理引擎优化。 适配 vLLM-Ascend 和 SGLang:
- 异步调度:重叠 D2H 采样拷贝与下一步解码准备
- 上下文管理:RadixCache 前缀共享、Prefix Cache 扩展 KV 存储到系统内存
- 并行策略:Attention DP 和 MoE EP 混合,FlashComm 分割 AllReduce 隐藏通信延迟
- 多 Token 预测:每推理步生成多 token,提高 NPU 计算密度
国产芯片性能: 通过硬件级协同优化,GLM-5 在单台国产节点上达到双 GPU 国际集群相当的性能,长序列场景部署成本降低 50%。
🎯 评估结果
ARC 基准评估
GLM-5 在 8 个 Agentic、Reasoning、Coding 基准上与前沿模型对比,平均超越 GLM-4.7 约 20%。
推理与通用能力:
| 基准 | GLM-5 | GLM-4.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|---|---|
| HLE | 30.5 | 24.8 | 25.1 | 31.5 | 28.4 | 37.2 | 35.4 |
| HLE (w/ Tools) | 50.4 | 42.8 | 40.8 | 51.8 | 43.4 | 45.8 | 45.5 |
| AIME 2026 I | 92.7 | 92.9 | 92.7 | 92.5 | 93.3 | 90.6 | - |
| HMMT Feb. 2025 | 97.9 | 97.1 | 92.5 | 95.4 | 92.9 | 97.3 | 99.4 |
| GPQA-Diamond | 86.0 | 85.7 | 82.4 | 87.6 | 87.0 | 91.9 | 92.4 |
| LongBench v2 | 64.5 | 59.1 | 59.8 | 61.0 | 64.4 | 68.2 | 59.8 |
编码能力:
| 基准 | GLM-5 | GLM-4.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|---|---|
| SWE-bench Verified | 77.8 | 73.8 | 73.1 | 76.8 | 80.9 | 76.2 | 80.0 |
| SWE-bench Multilingual | 73.3 | 66.7 | 70.2 | 73.0 | 77.5 | 65.0 | 72.0 |
| Terminal-Bench 2.0 | 60.7 | 41.0 | 39.3 | 50.8 | 59.3 | 54.2 | 54.0 |
| CyberGym | 43.2 | 23.5 | 17.3 | 41.3 | 50.6 | 39.9 | - |
智能体能力:
| 基准 | GLM-5 | GLM-4.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|---|---|
| BrowseComp | 62.0 | 52.0 | 51.4 | 60.6 | 37.0 | 37.8 | - |
| BrowseComp (Context Mgmt) | 75.9 | 67.5 | 67.6 | 74.9 | 57.8 | 59.2 | 65.8 |
| BrowseComp-ZH | 72.7 | 66.6 | 65.0 | 62.3 | 62.4 | 66.8 | 76.1 |
| 89.7 | 87.4 | 85.3 | 80.2 | 91.6 | 90.7 | 85.5 | |
| MCP-Atlas | 67.8 | 52.0 | 62.2 | 63.8 | 65.2 | 66.6 | 68.0 |
| Vending-Bench 2 | $4,432 | $2,377 | $1,034 | $1,198 | $4,967 | $5,478 | $3,591 |
真实世界智能体工程评估
CC-Bench-V2 评估前端、后端和长视程任务上的端到端正确性:
| 类别 | 任务 | 指标 | GLM-5 | GLM-4.7 | Claude Opus 4.5 |
|---|---|---|---|---|---|
| Frontend | HTML | ISR/CSR | 38.9/76.3 | 35.4/64.9 | 52.2/82.2 |
| Frontend | React | ISR/CSR | 34.6/71.0 | 17.2/49.4 | 39.7/70.7 |
| Frontend | Vue | ISR/CSR | 32.7/77.1 | 24.5/53.8 | 46.9/74.3 |
| Build | React/Vue/Svelte/Next.js | BSR | 100/100/100/95 | 65/70/60/70 | 95/100/90/80 |
| Backend | Engineering | Pass@1 | 25.8 | 19.6 | 26.9 |
| Long-horizon | Repo Exploration | Pass@1 | 65.6 | 47.8 | 64.5 |
| Long-horizon | Chained Tasks | Pass@1 | 52.3 | 43.0 | 61.6 |
前端评估——Agent-as-a-Judge。 开发专门针对前端开发场景的自动化评估基准,覆盖 HTML、React、Vue、Svelte、Next.js 等技术栈。评估流水线:静态验证(构建和运行成功)→ Agent-as-a-Judge(GUI 智能体模拟人类测试行为交互验证每个检查项)。Agent 判决与人工专家判断点对一致性达 94%,排名 Spearman 相关性达 85.7%。
后端评估。 跨越 Python、Go、C++、Rust、Java、TypeScript 六种语言,覆盖搜索引擎、数据库、Web 框架、AI 推理服务、知识管理系统等域。任务类型包括功能实现、bug 修复、回归修复、性能优化。
长视程评估。 包含仓库探索(高星 GitHub 仓库中定位深层目标文件)和多步链式任务(从合并 PR 挖掘构建任务链)。GLM-5 在仓库探索上超越 Claude Opus 4.5(65.6% vs 64.5%),但在链式任务上仍有差距(52.3% vs 61.6%),因为错误会在链中复合。
SWE-rebench 评估
在持续挖掘新鲜 GitHub issue 修复任务的 SWE-rebench 上,GLM-5 实现有效的泛化:
| 模型 | Resolved Rate | Pass@5 |
|---|---|---|
| Claude Opus 4.6 | 52.9% | 70.8% |
| GPT-5.2 (xhigh) | 51.7% | 58.3% |
| Claude Sonnet 4.5 | 47.1% | 60.4% |
| Gemini 3 Pro | 46.7% | 58.3% |
| Claude Opus 4.5 | 43.8% | 58.3% |
| GLM-5 | 42.1% | 50.0% |
| GLM-4.7 | 41.3% | 56.3% |
| Kimi K2.5 | 37.9% | 50.0% |
真实世界通用能力
跨越机器翻译、多语言对话、指令遵循、世界知识、工具调用五个真实世界能力域评估,GLM-5 在所有维度相比 GLM-4.7 都有提升。
与前沿模型的差距: 尽管 GLM-5 在多数基准上取得开源 SOTA,但在某些方面仍有差距。SWE-bench Verified(77.8% vs 80.9%)、Terminal-Bench 2.0(60.7% vs 59.3%)、链式任务(52.3% vs 61.6%)上与 Claude Opus 4.5 存在差距,反映了长程上下文一致性和长视程自纠能力的提升空间。
💡 结论
GLM-5 代表了从「vibe coding」到真正「智能体工程」的范式转变。通过 DSA 架构创新实现高效训练和推理,异步 RL 基础设施最大化 GPU 利用率,异步 Agent RL 算法优化长视程决策质量,GLM-5 展示了开源权重模型可以在复杂真实世界工作流中媲美顶级专有系统的能力。
GLM-5 在 Intelligence Index v4.0 上得分 50,成为首个达到该分数的开源权重模型。在 BrowseComp(75.9%)、LongBench v2(64.5%)、SWE-bench Multilingual(73.3%)等基准上取得开源 SOTA,在 LMArena Text 和 Code Arena 上均为开源模型第一。
通过开源模型,智谱 AI 旨在赋能社区超越静态基准,探索高效智能通用智能的前沿,推动 AI 智能体自主规划、实施、迭代复杂任务的新时代。
彩蛋——「Pony Alpha」实验: GLM-5 曾以「Pony Alpha」名称匿名发布在 OpenRouter 上。几天内,开发者社区注意到其在复杂编码、智能体工作流、角色扮演场景上的卓越表现。猜测纷纭:25% 猜测是 Claude Sonnet 5,20% 猜测是 DeepSeek,10% 猜测是 Grok。最终确认为 GLM-5 时,有效消除了对中国 LLM 能否在前沿水平竞争的质疑。这一匿名发布使模型超越地缘政治偏见,被社区接受因为它真正有效。