一、总体定位速览
| 维度 | MiniMax M3 | GLM 5.1 | Qwen 3.7 Max |
|---|---|---|---|
| 发布时间 | 2026-06-01 | 2026-03-27 | 2026-05-20 |
| 核心定位 | 编程 + Agent + 原生多模态 | 编程 + 数学 + 长程Agent | 综合旗舰 + Agent + 工具调用 |
| 架构 | Dense (非MoE) + MSA稀疏注意力 | MoE 754B总参 / ~40B激活 + DSA | MoE 万亿级总参 + Heavy推理 |
| 开源状态 | 开源 MIT | 开源 | 闭源 API only |
| 上下文窗口 | 1M tokens | 200K tokens | 1M tokens |
| 多模态 | 原生多模态 图文+视频+桌面 | 纯文本 (另有GLM-5V-Turbo) | 纯文本 Max版 (Plus版有视觉) |
| API价格 (每百万token) | 入 ¥2.1 / 出 ¥8.4 | 入 $1.4 / 出 $4.4 | 入 $2.5 / 出 $7.5 |
| 母公司 | MiniMax (港股0100, ~2635亿) | 智谱AI (港股2513, ~7111亿) | 阿里巴巴 (全球科技巨头) |
二、综合能力评测
2.1 核心基准测试对比
| 基准测试 | MiniMax M3 | GLM 5.1 | Qwen 3.7 Max | 参考: GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro (软件工程) | 59.0% 🥇 | 58.4% | — (未公布Pro) | ~55% |
| SWE-bench Verified (代码修复) | — | — | 72.3% | ~74% |
| GPQA Diamond (专家科学推理) | — | 86.2 | 92.4 🥇 | ~90 |
| AIME 2026 (数学竞赛) | — | 95.3 🥇 | — | — |
| HLE (终极考试, 含工具) | — | 52.3 | 41.4 (无工具) | — |
| Terminal Bench 2.0 | 66.0 | 63.5 | 69.7 🥇 | — |
| BrowseComp (信息检索Agent) | 83.5 🥇 | 79.3 | — | — |
| MMLU (综合知识) | — | — | 89.7% | — |
| PostTrainBench (训练后优化) | 37.1 (全球#3) | — | — | 39.3 (#2) |
| Chatbot Arena 盲测 | — | — | 中国#1 / 全球top-10 | — |
| IMOAnswerBench | — | 83.8 | 90.0 🥇 | — |
注意:SWE-Bench Pro 和 SWE-bench Verified 是不同的基准。Pro更侧重实际软件工程全流程(需求→实现→调试→部署),Verified侧重代码补丁修复。不能直接跨基准比较。
2.2 综合能力打分排名
综合评分 (六维均值)
87.0
Qwen 3.7 Max
综合评分
84.2
MiniMax M3
综合评分
82.7
GLM 5.1
| 能力维度 | MiniMax M3 | GLM 5.1 | Qwen 3.7 Max |
|---|---|---|---|
| 编程能力 (Coding) | 95 🥇 | 92 | 93 |
| 推理能力 (Reasoning) | 85 | 90 | 95 🥇 |
| Agent/工具调用 | 93 🥇 | 88 | 90 |
| 数学能力 | 80 | 95 🥇 | 90 |
| 多模态 | 92 🥇 | 30* | 40* |
| 综合知识/语言 | 82 | 85 | 92 🥇 |
* GLM 5.1和Qwen 3.7 Max本体为纯文本模型,多模态通过独立VLM子模型实现。
三、编程能力深度评测
3.1 编程基准可视化对比
3.2 编程能力评分与排位
| 排名 | 模型 | SWE-Bench Pro | Terminal-Bench | CodeArena | HumanEval | 综合评分 |
|---|---|---|---|---|---|---|
| #1 | MiniMax M3 | 59.0% | 66.0 | — | — | 95 |
| #2 | Qwen 3.7 Max | 72.3% (Verified) | 69.7 | 1541 (#4) | 87.2% | 93 |
| #3 | GLM 5.1 | 58.4% | 63.5 | — | — | 92 |
MiniMax M3 编程优势
- SWE-Bench Pro 59.0%,全球#5,超越GPT-5.5和Gemini 3.1 Pro
- 12小时自主优化CUDA Kernel,硬件利用率从7.6%提升至71.7%(9.4倍)
- MCP Atlas 74.2%,展示极强的工具链编排能力
- 原生多模态使其在UI代码生成(SVG-Bench超Opus 4.7)上有独特优势
Qwen 3.7 Max 编程优势
- CodeArena盲测1541分,国产模型首个突破1540分
- 35小时自主编程运行,1158次工具调用,标准Triton参考10倍加速
- HumanEval 87.2%,国产模型唯一超85%
- Terminal-Bench 69.7,三模型最高
GLM 5.1 编程局限
SWE-Bench Pro 58.4仅比M3低0.6分,差距极小。但Terminal-Bench(63.5)明显落后,且上下文窗口仅200K,在大型代码库理解场景受限。不过它在8小时连续编程稳定性上有独特优势。
四、多模态能力对比
| 多模态维度 | MiniMax M3 | GLM 5.1 (本体) | Qwen 3.7 Max (本体) |
|---|---|---|---|
| 图像理解 | 原生支持 | 需GLM-5V-Turbo | 需Qwen3.7-Plus |
| 视频理解 | 原生, Video-MME 84.6 | 不支持 | 不支持 |
| 桌面操作 | OSWorld 70.06% | 不支持 | 不支持 |
| 文档理解 | OmniDocBench > Gemini 3.1 Pro | 不支持 | Plus版: Vision Arena中国#1 |
| SVG/UI生成 | SVG-Bench > Opus 4.7 | 不支持 | Plus版支持 |
| 训练方式 | Step 0混合模态训练 | 独立VLM模型 | 独立VLM模型 (Plus) |
关键差异:MiniMax M3是唯一从预训练第一步就进行混合模态训练的模型,图文视频理解是原生能力而非后挂的视觉编码器。文本和视觉特征在训练早期就建立了交叉关联,多模态推理质量理论上优于"先训练文本再外挂视觉"的方案。
五、底层技术对比
5.1 注意力机制路线分歧
| 技术维度 | MiniMax M3 | GLM 5.1 | Qwen 3.7 Max |
|---|---|---|---|
| 注意力机制 | MSA (MiniMax Sparse Attention) 基于GQA,KV块级筛选 直接在原始KV上计算 |
DSA (Dynamic Sparse Attention) 动态稀疏注意力 |
GQA/MQA (推测) (未公开具体方案) |
| 与DeepSeek MLA对比 | 不走压缩路线,保留精度 对Prefix Cache友好 |
与MLA + CSA路线不同 block-sparse选择 |
推测采用类似MLA方案 |
| 稀疏加速比 | 1M上下文:prefill 9.7x decode 15.6x 单token计算量仅为M2的1/20 |
未公布具体倍数 | 未公布具体倍数 |
| MoE vs Dense | Dense 一次推理激活全部参数 |
MoE 754B总参/~40B激活 |
MoE 万亿总参 |
| 优化器创新 | 未公开 | Muon Split 改善MoE训练稳定性 |
未公开 |
| 强化学习 | 未公开 | 异步RL降低幻觉 | Heavy Mode推理时扩展 |
Dense vs MoE 路线选择:MiniMax选择Dense,推理时激活全部参数,单次成本更高,但避免了MoE路由失败(token被分配到弱专家)。MSA稀疏注意力已大幅压缩计算量(1/20),Dense的成本劣势被很大程度对冲。GLM和Qwen选择MoE,训练效率和推理成本有优势,但存在专家负载不均衡的隐患。
5.2 训练数据与规模
| 维度 | MiniMax M3 | GLM 5.1 | Qwen 3.7 Max |
|---|---|---|---|
| 训练数据量 | 未公开 | 未公开 | 未公开 |
| 数据类型 | 大规模交错数据(interleaved) 非合成数据为主 |
推测大规模文本+代码 合成数据占比高 |
推测海量多语言+代码 阿里生态数据优势 |
| 多模态数据 | Step 0混合模态训练 图文交错数据可规模化扩展 |
独立VLM训练管线 | 独立VLM训练管线 |
| 数据策略 | 重构文本预训练管线 交错数据优于合成数据 |
MoE routing优化 异步RL强化 |
Heavy Mode推理时扩展 |
六、公司体量与生态
| 维度 | MiniMax | 智谱AI | 阿里通义千问 |
|---|---|---|---|
| 公司市值/体量 | 港股 ~2635亿港元 | 港股 ~7111亿港元 | 阿里集团 数万亿级 |
| 核心商业模式 | To C 应用 + API + 开源引流 | To B MaaS + 开源 + 政企 | 阿里云MaaS + 闭源API + 开源小模型 |
| 技术基因 | 商汤系创业团队 产品导向 | 清华系 学术/工程并重 | 阿里云工程团队 基础设施驱动 |
| 开源策略 | MIT协议全开源 | 开源权重 | 小模型开源 / Max闭源 |
| 算力资源 | 中等 (创业公司) | 较强 (上市+国资) | 极强 (阿里云基础设施) |
生态差异总结:智谱市值是MiniMax的2.7倍,但M3的技术锐度(SWE-Bench Pro 59.0%,原生多模态,MSA架构)说明规模不等于技术领先。阿里拥有最强的算力基础设施和生态绑定能力。三者真正的分水岭:MiniMax走技术激进路线(Dense+原生多模态),智谱走稳健工程路线(MoE+长时间稳定性),阿里走规模碾压路线(万亿MoE+阿里云生态)。
七、总排名与选型建议
7.1 总排名
| 排名 | 模型 | 编程 | 推理 | Agent | 数学 | 多模态 | 综合 | 总分 |
|---|---|---|---|---|---|---|---|---|
| 第一 | Qwen 3.7 Max | 93 | 95 | 90 | 90 | 40 | 92 | 500 |
| 第二 | MiniMax M3 | 95 | 85 | 93 | 80 | 92 | 82 | 527 |
| 第三 | GLM 5.1 | 92 | 90 | 88 | 95 | 30 | 85 | 480 |
总分500分。如只看编程+Agent+多模态三维,MiniMax M3以280分领先Qwen(223)和GLM(210)。
7.2 按场景推荐
| 使用场景 | 首选 | 理由 |
|---|---|---|
| 软件工程 / 复杂编程 | MiniMax M3 | SWE-Bench Pro最高,原生多模态辅助UI生成,MCP生态 |
| 通用编程 / 代码生成 | Qwen 3.7 Max | CodeArena盲测最高,HumanEval 87.2%,35h自主编程 |
| 数学推理 / 竞赛 | GLM 5.1 | AIME 2026全球第二,数学能力断层领先 |
| 多模态应用 | MiniMax M3 | 唯一原生多模态,视频/文档/桌面全覆盖 |
| Agent/自动化工作流 | MiniMax M3 | BrowseComp #7, MCP Atlas 74.2% |
| 长程稳定运行 (8h+) | GLM 5.1 | 持续8小时自主工作不掉链子 |
| 企业级综合应用 | Qwen 3.7 Max | 阿里云生态、工具调用92.5%、综合知识最强 |
| 成本敏感 / 自部署 | MiniMax M3 | MIT开源、最低API价格、Dense架构部署简单 |
总结
三家走的是三条完全不同的路,不存在谁全面碾压谁。
MiniMax M3最有锐度——没去卷MoE参数规模,用Dense+MSA走了一条技术新路。SWE-Bench Pro 59.0%和原生多模态证明这条路走通了。MIT开源允许商用,对开发者最友好。
GLM 5.1是工程师的模型——AIME全球第二,8小时连续工作不掉链子。但200K上下文太短,多模态还需切模型。
Qwen 3.7 Max最稳——背靠阿里云,综合能力最强。但它闭源API only,没办法自己部署。
一句话:要编程+多模态+自由部署 → MiniMax M3;要数学+长程稳定性 → GLM 5.1;要综合能力+生态 → Qwen 3.7 Max。