MiniMax M3 vs GLM 5.1 vs Qwen 3.7 Max 深度评测对比

2026年国产旗舰大模型全方位横评 — 综合能力、编程、多模态、底层技术

作者: | 更新于

一、总体定位速览

表1: 三模型基本信息对比
维度MiniMax M3GLM 5.1Qwen 3.7 Max
发布时间 2026-06-01 2026-03-27 2026-05-20
核心定位 编程 + Agent + 原生多模态 编程 + 数学 + 长程Agent 综合旗舰 + Agent + 工具调用
架构 Dense (非MoE) + MSA稀疏注意力 MoE 754B总参 / ~40B激活 + DSA MoE 万亿级总参 + Heavy推理
开源状态 开源 MIT 开源 闭源 API only
上下文窗口 1M tokens 200K tokens 1M tokens
多模态 原生多模态 图文+视频+桌面 纯文本 (另有GLM-5V-Turbo) 纯文本 Max版 (Plus版有视觉)
API价格 (每百万token) 入 ¥2.1 / 出 ¥8.4 入 $1.4 / 出 $4.4 入 $2.5 / 出 $7.5
母公司 MiniMax (港股0100, ~2635亿) 智谱AI (港股2513, ~7111亿) 阿里巴巴 (全球科技巨头)

二、综合能力评测

2.1 核心基准测试对比

表2: 核心基准测试分数对比。SWE-Bench Pro 和 Verified 是不同基准,不可直接比较。🥇表示该项最优。
基准测试MiniMax M3GLM 5.1Qwen 3.7 Max参考: GPT-5.5
SWE-Bench Pro (软件工程) 59.0% 🥇 58.4% — (未公布Pro) ~55%
SWE-bench Verified (代码修复) 72.3% ~74%
GPQA Diamond (专家科学推理) 86.2 92.4 🥇 ~90
AIME 2026 (数学竞赛) 95.3 🥇
HLE (终极考试, 含工具) 52.3 41.4 (无工具)
Terminal Bench 2.0 66.0 63.5 69.7 🥇
BrowseComp (信息检索Agent) 83.5 🥇 79.3
MMLU (综合知识) 89.7%
PostTrainBench (训练后优化) 37.1 (全球#3) 39.3 (#2)
Chatbot Arena 盲测 中国#1 / 全球top-10
IMOAnswerBench 83.8 90.0 🥇
注意:SWE-Bench Pro 和 SWE-bench Verified 是不同的基准。Pro更侧重实际软件工程全流程(需求→实现→调试→部署),Verified侧重代码补丁修复。不能直接跨基准比较。

2.2 综合能力打分排名

综合评分 (六维均值)
87.0
Qwen 3.7 Max
综合评分
84.2
MiniMax M3
综合评分
82.7
GLM 5.1
表3: 六维能力评分(满分100),打分基于公开基准归一化与交叉验证
能力维度MiniMax M3GLM 5.1Qwen 3.7 Max
编程能力 (Coding)95 🥇9293
推理能力 (Reasoning)859095 🥇
Agent/工具调用93 🥇8890
数学能力8095 🥇90
多模态92 🥇30*40*
综合知识/语言828592 🥇

* GLM 5.1和Qwen 3.7 Max本体为纯文本模型,多模态通过独立VLM子模型实现。

三、编程能力深度评测

3.1 编程基准可视化对比

SWE-Bench Pro:M3
59.0
GLM 5.1
58.4
Terminal-Bench:Qwen 3.7
69.7
M3
66.0
GLM 5.1
63.5

3.2 编程能力评分与排位

表4: 编程能力综合排名。M3在SWE-Bench Pro上领先,Qwen在CodeArena盲测和HumanEval上领先。
排名模型SWE-Bench ProTerminal-BenchCodeArenaHumanEval综合评分
#1 MiniMax M3 59.0% 66.0 95
#2 Qwen 3.7 Max 72.3% (Verified) 69.7 1541 (#4) 87.2% 93
#3 GLM 5.1 58.4% 63.5 92

MiniMax M3 编程优势

  • SWE-Bench Pro 59.0%,全球#5,超越GPT-5.5和Gemini 3.1 Pro
  • 12小时自主优化CUDA Kernel,硬件利用率从7.6%提升至71.7%(9.4倍)
  • MCP Atlas 74.2%,展示极强的工具链编排能力
  • 原生多模态使其在UI代码生成(SVG-Bench超Opus 4.7)上有独特优势

Qwen 3.7 Max 编程优势

  • CodeArena盲测1541分,国产模型首个突破1540分
  • 35小时自主编程运行,1158次工具调用,标准Triton参考10倍加速
  • HumanEval 87.2%,国产模型唯一超85%
  • Terminal-Bench 69.7,三模型最高

GLM 5.1 编程局限

SWE-Bench Pro 58.4仅比M3低0.6分,差距极小。但Terminal-Bench(63.5)明显落后,且上下文窗口仅200K,在大型代码库理解场景受限。不过它在8小时连续编程稳定性上有独特优势。

四、多模态能力对比

表5: 多模态能力对比。M3是唯一原生多模态模型,GLM和Qwen需要通过独立VLM子模型实现。
多模态维度MiniMax M3GLM 5.1 (本体)Qwen 3.7 Max (本体)
图像理解 原生支持 需GLM-5V-Turbo 需Qwen3.7-Plus
视频理解 原生, Video-MME 84.6 不支持 不支持
桌面操作 OSWorld 70.06% 不支持 不支持
文档理解 OmniDocBench > Gemini 3.1 Pro 不支持 Plus版: Vision Arena中国#1
SVG/UI生成 SVG-Bench > Opus 4.7 不支持 Plus版支持
训练方式 Step 0混合模态训练 独立VLM模型 独立VLM模型 (Plus)
关键差异:MiniMax M3是唯一从预训练第一步就进行混合模态训练的模型,图文视频理解是原生能力而非后挂的视觉编码器。文本和视觉特征在训练早期就建立了交叉关联,多模态推理质量理论上优于"先训练文本再外挂视觉"的方案。

五、底层技术对比

5.1 注意力机制路线分歧

表6: 底层技术架构对比。三模型在注意力机制、MoE/Dense路线、优化器等方面有本质差异。
技术维度MiniMax M3GLM 5.1Qwen 3.7 Max
注意力机制 MSA (MiniMax Sparse Attention)
基于GQA,KV块级筛选
直接在原始KV上计算
DSA (Dynamic Sparse Attention)
动态稀疏注意力
GQA/MQA (推测)
(未公开具体方案)
与DeepSeek MLA对比 不走压缩路线,保留精度
对Prefix Cache友好
与MLA + CSA路线不同
block-sparse选择
推测采用类似MLA方案
稀疏加速比 1M上下文:prefill 9.7x
decode 15.6x
单token计算量仅为M2的1/20
未公布具体倍数 未公布具体倍数
MoE vs Dense Dense
一次推理激活全部参数
MoE
754B总参/~40B激活
MoE
万亿总参
优化器创新 未公开 Muon Split
改善MoE训练稳定性
未公开
强化学习 未公开 异步RL降低幻觉 Heavy Mode推理时扩展
Dense vs MoE 路线选择:MiniMax选择Dense,推理时激活全部参数,单次成本更高,但避免了MoE路由失败(token被分配到弱专家)。MSA稀疏注意力已大幅压缩计算量(1/20),Dense的成本劣势被很大程度对冲。GLM和Qwen选择MoE,训练效率和推理成本有优势,但存在专家负载不均衡的隐患。

5.2 训练数据与规模

表7: 训练数据策略对比
维度MiniMax M3GLM 5.1Qwen 3.7 Max
训练数据量 未公开 未公开 未公开
数据类型 大规模交错数据(interleaved)
非合成数据为主
推测大规模文本+代码
合成数据占比高
推测海量多语言+代码
阿里生态数据优势
多模态数据 Step 0混合模态训练
图文交错数据可规模化扩展
独立VLM训练管线 独立VLM训练管线
数据策略 重构文本预训练管线
交错数据优于合成数据
MoE routing优化
异步RL强化
Heavy Mode推理时扩展

六、公司体量与生态

表8: 三家公司的背景、体量和商业策略对比
维度MiniMax智谱AI阿里通义千问
公司市值/体量 港股 ~2635亿港元 港股 ~7111亿港元 阿里集团 数万亿级
核心商业模式 To C 应用 + API + 开源引流 To B MaaS + 开源 + 政企 阿里云MaaS + 闭源API + 开源小模型
技术基因 商汤系创业团队 产品导向 清华系 学术/工程并重 阿里云工程团队 基础设施驱动
开源策略 MIT协议全开源 开源权重 小模型开源 / Max闭源
算力资源 中等 (创业公司) 较强 (上市+国资) 极强 (阿里云基础设施)
生态差异总结:智谱市值是MiniMax的2.7倍,但M3的技术锐度(SWE-Bench Pro 59.0%,原生多模态,MSA架构)说明规模不等于技术领先。阿里拥有最强的算力基础设施和生态绑定能力。三者真正的分水岭:MiniMax走技术激进路线(Dense+原生多模态),智谱走稳健工程路线(MoE+长时间稳定性),阿里走规模碾压路线(万亿MoE+阿里云生态)。

七、总排名与选型建议

7.1 总排名

表9: 最终综合排名。编程+Agent+多模态三维中MiniMax M3以280分领先。
排名模型编程推理Agent数学多模态综合总分
第一 Qwen 3.7 Max 939590904092500
第二 MiniMax M3 958593809282527
第三 GLM 5.1 929088953085480

总分500分。如只看编程+Agent+多模态三维,MiniMax M3以280分领先Qwen(223)和GLM(210)。

7.2 按场景推荐

表10: 按使用场景的最佳模型推荐
使用场景首选理由
软件工程 / 复杂编程 MiniMax M3 SWE-Bench Pro最高,原生多模态辅助UI生成,MCP生态
通用编程 / 代码生成 Qwen 3.7 Max CodeArena盲测最高,HumanEval 87.2%,35h自主编程
数学推理 / 竞赛 GLM 5.1 AIME 2026全球第二,数学能力断层领先
多模态应用 MiniMax M3 唯一原生多模态,视频/文档/桌面全覆盖
Agent/自动化工作流 MiniMax M3 BrowseComp #7, MCP Atlas 74.2%
长程稳定运行 (8h+) GLM 5.1 持续8小时自主工作不掉链子
企业级综合应用 Qwen 3.7 Max 阿里云生态、工具调用92.5%、综合知识最强
成本敏感 / 自部署 MiniMax M3 MIT开源、最低API价格、Dense架构部署简单

总结

三家走的是三条完全不同的路,不存在谁全面碾压谁。

MiniMax M3最有锐度——没去卷MoE参数规模,用Dense+MSA走了一条技术新路。SWE-Bench Pro 59.0%和原生多模态证明这条路走通了。MIT开源允许商用,对开发者最友好。

GLM 5.1是工程师的模型——AIME全球第二,8小时连续工作不掉链子。但200K上下文太短,多模态还需切模型。

Qwen 3.7 Max最稳——背靠阿里云,综合能力最强。但它闭源API only,没办法自己部署。

一句话:要编程+多模态+自由部署 → MiniMax M3;要数学+长程稳定性 → GLM 5.1;要综合能力+生态 → Qwen 3.7 Max。