MiniMax M3 vs GLM 5.1 vs Qwen 3.7 Max 深度评测对比

2026年国产旗舰大模型全方位横评 — 综合能力、编程、多模态、底层技术

作者: 铁蛋 | 更新于 2026年6月11日

一、总体定位速览

表1: 三模型基本信息对比
维度	MiniMax M3	GLM 5.1	Qwen 3.7 Max
发布时间	2026-06-01	2026-03-27	2026-05-20
核心定位	编程 + Agent + 原生多模态	编程 + 数学 + 长程Agent	综合旗舰 + Agent + 工具调用
架构	Dense (非MoE) + MSA稀疏注意力	MoE 754B总参 / ~40B激活 + DSA	MoE 万亿级总参 + Heavy推理
开源状态	开源 MIT	开源	闭源 API only
上下文窗口	1M tokens	200K tokens	1M tokens
多模态	原生多模态图文+视频+桌面	纯文本 (另有GLM-5V-Turbo)	纯文本 Max版 (Plus版有视觉)
API价格 (每百万token)	入 ¥2.1 / 出 ¥8.4	入 $1.4 / 出 $4.4	入 $2.5 / 出 $7.5
母公司	MiniMax (港股0100, ~2635亿)	智谱AI (港股2513, ~7111亿)	阿里巴巴 (全球科技巨头)

二、综合能力评测

2.1 核心基准测试对比

表2: 核心基准测试分数对比。SWE-Bench Pro 和 Verified 是不同基准，不可直接比较。🥇表示该项最优。
基准测试	MiniMax M3	GLM 5.1	Qwen 3.7 Max	参考: GPT-5.5
SWE-Bench Pro (软件工程)	59.0% 🥇	58.4%	— (未公布Pro)	~55%
SWE-bench Verified (代码修复)	—	—	72.3%	~74%
GPQA Diamond (专家科学推理)	—	86.2	92.4 🥇	~90
AIME 2026 (数学竞赛)	—	95.3 🥇	—	—
HLE (终极考试, 含工具)	—	52.3	41.4 (无工具)	—
Terminal Bench 2.0	66.0	63.5	69.7 🥇	—
BrowseComp (信息检索Agent)	83.5 🥇	79.3	—	—
MMLU (综合知识)	—	—	89.7%	—
PostTrainBench (训练后优化)	37.1 (全球#3)	—	—	39.3 (#2)
Chatbot Arena 盲测	—	—	中国#1 / 全球top-10	—
IMOAnswerBench	—	83.8	90.0 🥇	—

注意：SWE-Bench Pro 和 SWE-bench Verified 是不同的基准。Pro更侧重实际软件工程全流程（需求→实现→调试→部署），Verified侧重代码补丁修复。不能直接跨基准比较。

2.2 综合能力打分排名

综合评分 (六维均值)

87.0

Qwen 3.7 Max

综合评分

84.2

MiniMax M3

综合评分

82.7

GLM 5.1

表3: 六维能力评分（满分100），打分基于公开基准归一化与交叉验证
能力维度	MiniMax M3	GLM 5.1	Qwen 3.7 Max
编程能力 (Coding)	95 🥇	92	93
推理能力 (Reasoning)	85	90	95 🥇
Agent/工具调用	93 🥇	88	90
数学能力	80	95 🥇	90
多模态	92 🥇	30^*	40^*
综合知识/语言	82	85	92 🥇

* GLM 5.1和Qwen 3.7 Max本体为纯文本模型，多模态通过独立VLM子模型实现。

三、编程能力深度评测

3.1 编程基准可视化对比

SWE-Bench Pro:M3

59.0

GLM 5.1

58.4

Terminal-Bench:Qwen 3.7

69.7

66.0

GLM 5.1

63.5

3.2 编程能力评分与排位

表4: 编程能力综合排名。M3在SWE-Bench Pro上领先，Qwen在CodeArena盲测和HumanEval上领先。
排名	模型	SWE-Bench Pro	Terminal-Bench	CodeArena	HumanEval	综合评分
#1	MiniMax M3	59.0%	66.0	—	—	95
#2	Qwen 3.7 Max	72.3% (Verified)	69.7	1541 (#4)	87.2%	93
#3	GLM 5.1	58.4%	63.5	—	—	92

MiniMax M3 编程优势

SWE-Bench Pro 59.0%，全球#5，超越GPT-5.5和Gemini 3.1 Pro
12小时自主优化CUDA Kernel，硬件利用率从7.6%提升至71.7%（9.4倍）
MCP Atlas 74.2%，展示极强的工具链编排能力
原生多模态使其在UI代码生成（SVG-Bench超Opus 4.7）上有独特优势

Qwen 3.7 Max 编程优势

CodeArena盲测1541分，国产模型首个突破1540分
35小时自主编程运行，1158次工具调用，标准Triton参考10倍加速
HumanEval 87.2%，国产模型唯一超85%
Terminal-Bench 69.7，三模型最高

GLM 5.1 编程局限

SWE-Bench Pro 58.4仅比M3低0.6分，差距极小。但Terminal-Bench（63.5）明显落后，且上下文窗口仅200K，在大型代码库理解场景受限。不过它在8小时连续编程稳定性上有独特优势。

四、多模态能力对比

表5: 多模态能力对比。M3是唯一原生多模态模型，GLM和Qwen需要通过独立VLM子模型实现。
多模态维度	MiniMax M3	GLM 5.1 (本体)	Qwen 3.7 Max (本体)
图像理解	原生支持	需GLM-5V-Turbo	需Qwen3.7-Plus
视频理解	原生, Video-MME 84.6	不支持	不支持
桌面操作	OSWorld 70.06%	不支持	不支持
文档理解	OmniDocBench > Gemini 3.1 Pro	不支持	Plus版: Vision Arena中国#1
SVG/UI生成	SVG-Bench > Opus 4.7	不支持	Plus版支持
训练方式	Step 0混合模态训练	独立VLM模型	独立VLM模型 (Plus)

关键差异：MiniMax M3是唯一从预训练第一步就进行混合模态训练的模型，图文视频理解是原生能力而非后挂的视觉编码器。文本和视觉特征在训练早期就建立了交叉关联，多模态推理质量理论上优于"先训练文本再外挂视觉"的方案。

五、底层技术对比

5.1 注意力机制路线分歧

表6: 底层技术架构对比。三模型在注意力机制、MoE/Dense路线、优化器等方面有本质差异。
技术维度	MiniMax M3	GLM 5.1	Qwen 3.7 Max
注意力机制	MSA (MiniMax Sparse Attention) 基于GQA，KV块级筛选直接在原始KV上计算	DSA (Dynamic Sparse Attention) 动态稀疏注意力	GQA/MQA (推测) (未公开具体方案)
与DeepSeek MLA对比	不走压缩路线，保留精度对Prefix Cache友好	与MLA + CSA路线不同 block-sparse选择	推测采用类似MLA方案
稀疏加速比	1M上下文：prefill 9.7x decode 15.6x 单token计算量仅为M2的1/20	未公布具体倍数	未公布具体倍数
MoE vs Dense	Dense 一次推理激活全部参数	MoE 754B总参/~40B激活	MoE 万亿总参
优化器创新	未公开	Muon Split 改善MoE训练稳定性	未公开
强化学习	未公开	异步RL降低幻觉	Heavy Mode推理时扩展

Dense vs MoE 路线选择：MiniMax选择Dense，推理时激活全部参数，单次成本更高，但避免了MoE路由失败（token被分配到弱专家）。MSA稀疏注意力已大幅压缩计算量（1/20），Dense的成本劣势被很大程度对冲。GLM和Qwen选择MoE，训练效率和推理成本有优势，但存在专家负载不均衡的隐患。

5.2 训练数据与规模

表7: 训练数据策略对比
维度	MiniMax M3	GLM 5.1	Qwen 3.7 Max
训练数据量	未公开	未公开	未公开
数据类型	大规模交错数据(interleaved) 非合成数据为主	推测大规模文本+代码合成数据占比高	推测海量多语言+代码阿里生态数据优势
多模态数据	Step 0混合模态训练图文交错数据可规模化扩展	独立VLM训练管线	独立VLM训练管线
数据策略	重构文本预训练管线交错数据优于合成数据	MoE routing优化异步RL强化	Heavy Mode推理时扩展

六、公司体量与生态

表8: 三家公司的背景、体量和商业策略对比
维度	MiniMax	智谱AI	阿里通义千问
公司市值/体量	港股 ~2635亿港元	港股 ~7111亿港元	阿里集团数万亿级
核心商业模式	To C 应用 + API + 开源引流	To B MaaS + 开源 + 政企	阿里云MaaS + 闭源API + 开源小模型
技术基因	商汤系创业团队产品导向	清华系学术/工程并重	阿里云工程团队基础设施驱动
开源策略	MIT协议全开源	开源权重	小模型开源 / Max闭源
算力资源	中等 (创业公司)	较强 (上市+国资)	极强 (阿里云基础设施)

生态差异总结：智谱市值是MiniMax的2.7倍，但M3的技术锐度（SWE-Bench Pro 59.0%，原生多模态，MSA架构）说明规模不等于技术领先。阿里拥有最强的算力基础设施和生态绑定能力。三者真正的分水岭：MiniMax走技术激进路线（Dense+原生多模态），智谱走稳健工程路线（MoE+长时间稳定性），阿里走规模碾压路线（万亿MoE+阿里云生态）。

七、总排名与选型建议

7.1 总排名

表9: 最终综合排名。编程+Agent+多模态三维中MiniMax M3以280分领先。
排名	模型	编程	推理	Agent	数学	多模态	综合	总分
第一	Qwen 3.7 Max	93	95	90	90	40	92	500
第二	MiniMax M3	95	85	93	80	92	82	527
第三	GLM 5.1	92	90	88	95	30	85	480

总分500分。如只看编程+Agent+多模态三维，MiniMax M3以280分领先Qwen(223)和GLM(210)。

7.2 按场景推荐

表10: 按使用场景的最佳模型推荐
使用场景	首选	理由
软件工程 / 复杂编程	MiniMax M3	SWE-Bench Pro最高，原生多模态辅助UI生成，MCP生态
通用编程 / 代码生成	Qwen 3.7 Max	CodeArena盲测最高，HumanEval 87.2%，35h自主编程
数学推理 / 竞赛	GLM 5.1	AIME 2026全球第二，数学能力断层领先
多模态应用	MiniMax M3	唯一原生多模态，视频/文档/桌面全覆盖
Agent/自动化工作流	MiniMax M3	BrowseComp #7, MCP Atlas 74.2%
长程稳定运行 (8h+)	GLM 5.1	持续8小时自主工作不掉链子
企业级综合应用	Qwen 3.7 Max	阿里云生态、工具调用92.5%、综合知识最强
成本敏感 / 自部署	MiniMax M3	MIT开源、最低API价格、Dense架构部署简单

总结

三家走的是三条完全不同的路，不存在谁全面碾压谁。

MiniMax M3最有锐度——没去卷MoE参数规模，用Dense+MSA走了一条技术新路。SWE-Bench Pro 59.0%和原生多模态证明这条路走通了。MIT开源允许商用，对开发者最友好。

GLM 5.1是工程师的模型——AIME全球第二，8小时连续工作不掉链子。但200K上下文太短，多模态还需切模型。

Qwen 3.7 Max最稳——背靠阿里云，综合能力最强。但它闭源API only，没办法自己部署。

一句话：要编程+多模态+自由部署 → MiniMax M3；要数学+长程稳定性 → GLM 5.1；要综合能力+生态 → Qwen 3.7 Max。