神农尝百草：国产模型大横评

Posted on 2026-03-22 Edited on 2026-04-08 In 其他技术

包含内容（国产大模型）：

GLM-4.7、GLM-5
DeepSeek-V3.2
Doubao-Seed-Code、Doubao-seed-2.0（闭源）
minimax-m2.5、minimax-m2.7
kimi-k2.5
mimo-v2-pro
qwen3-max（闭源）、qwen3.5-plus、qwen3.6-plus

不包含的内容（国外大模型）：Gemini、GPT、Claude

背景

本来想在《那些年用过的Agent》里更新，但内容实在太多了，单独写一篇吧。

模型之间比较

更新时间：2026.4.7

基本排序：(GLM5, mimo-v2-pro) > minimax-m2.7 > kimi-k2.5 > Others

GLM5：买不到
Mimo：贵
Minimax：便宜
Kimi：贵且菜

Others里： (GLM-4.7, Qwen3.6-plus(max)) > DeepSeek-V3.2 > Doubao-2.0-pro > hunyuan

横评

说明：没有【夯】是因为有国外的闭源模型，作者暂未拉踩。

模型	编程场景	复杂任务场景	综合评价
Doubao-Seed-Code	拉完了	不配被测试	拉完了
doubao-seed-2.0-lite / pro / code	拉完了	不配被测试	拉完了
GLM-4.7	拉完了	拉完了	拉完了
deepseek-v3.2	NPC	不配被测试	拉完了
minimax-m2.5	人上人	拉完了	NPC
kimi-k2.5	人上人	拉完了	NPC
mimo-v2-pro	人上人	人上人	人上人（贵）
GLM-5	人上人	人上人	人上人（慢、超卖）
minimax-m2.7	人上人	NPC	人上人（勉强）
qwen3-max	拉完了	拉完了	拉完了
qwen3.6-plus	/	/	拉完了

任务1：日常开发（纯主观，无数据支持）

测试环境，ClaudeCode + 火山引擎CodePlan，日常开发python项目。

吐槽：ClaudeCode的默认提示词居然有20KB，随便问一句1+1=2都能烧2KB，挺烧的。

注：以下数据来自火山引擎的CodePlan

模型	评级	原因
Doubao-Seed-Code	拉完了	git clone都能clone歪。
GLM-4.7	拉完了	写个bash都能写歪来，变量未定义直接使用，调用write file toolcall甚至不传递filename。
deepseek-v3.2	NPC	把GLM-4.7的脚本修好了，但上下文长度只有128K，ClaudeCode很容易就用超了，鉴于上下文长度不足，姑且降级为NPC。
minimax-m2.5	人上人	在deepseek的session，继续干活儿，目前没太想吐槽的地方。
kimi-k2.5	人上人	从minimax切过来，有点慢，但可能和minimax也差不太多，没有太想吐槽的地方。
doubao-seed-2.0-lite / pro / code	拉完了	写项目凑合，目前没发现明显优势，但我让它使用venv，它搜索了 `/venv`，然后搜 `/.sh`，其实我在当前目录下已经有 `venv` 了。即便是GLM-4.7也没遇到这么低级的问题。

注：GLM-5 来自官网

GLM-5：能力不错，但运行慢，且排队严重，酌情给到人上人。

注：minimax-m2.7来自官网

minimax-m2.7：能力普通，酌情给到人上人。

注：mimo-v2-pro 来自 opencode 免费版

mimo-v2-pro：顶级，目前没遇到问题。

插曲：mimo-v2-pro公测

本来测得差不多了，突然mimo-v2上新了，mimo-v1好像没什么人用，本来以为是电子垃圾，没想到这么好用。

测试环境，OpenCode，针对 https://gitcode.com/Cangjie/cangjie_stdx/pull/444/diffs 编写测试用例。（注：该组件处于迭代开发中，尚未发布，且漏洞已修复）

大致步骤是：1、在没有任何前置信息的情况下，找到其中关于 startsWith 导致的目录穿越漏洞；2、编写poc验证该漏洞。

实际的步骤：

我使用mimo-v2-pro成功发现了该漏洞。
由于免费额度耗尽，我让 GLM-4.7 接手后续的验证，它表现很差，直接出局
再让 minimax-m2.5接手，它把 startsWith 的调用者和参数理解反了，在错误的调用方式下，它认为漏洞不存在
在我的指导下，mimimax半信半疑使用我的方案，最终完成 poc 目标

因此：mimo > minimax-m2.5 > glm-4.7。

Session记录：https://opncd.ai/share/39Hhkxhl

任务2：完成复杂任务

测试环境，OpenCode，完成复杂任务，针对 https://gitcode.com/Cangjie/cangjie_tools/pull/715 编写测试用例。大致步骤是：1、阅读给出的安全报告，设计测试流程；2、创建一个mitm-server；3、根据文档配置客户端、执行cjpm命令行工具、向server发送请求；4、在server中观测是否收到请求，验证报告的正确性。

难点：1、需要LLM调用一个陌生的命令行工具；2、需要LLM根据协议编写一个简要的Server；3、基础的计算机知识。

由于在编程任务里拉完了，而无法参与的选手：豆包1.0、豆包2.0、DeepSeek-V3.2。

对话历史非常巨大（因为它创建了venv而且似乎被视为了session的一部分），一直上传失败，非常可惜。我只能提取摘要放在本章节末尾

模型	评级	原因
mimo-v2-pro	人上人	一遍过，没有任何问题。但由于它在之后的对话中先输出false后输出true，降级为人上人。
GLM-5	人上人	一遍过，没有任何问题，明显感觉慢
GLM-4.7	拉完了	随便创建了一个mitm-server，然后罢工
minimax-m2.7	NPC	强烈的暗示下完成。它没有调用cjpm这个命令，提示后可以正常调用但混淆了两个API，提示后终于完成，一波三折
minimax-m2.5	拉完了	搞不定。它没有调用cjpm这个命令，提示后仍无法正确使用cjpm
kimi-k2.5	拉完了	搞不定。先尝试修改DNS，然后模拟某些行为，骗我反复说成功了，无法正确使用cjpm
qwen3-max	拉完了	无法完成任务，完全不知所云

目前这三个模型可以完成任务，具体对话如下

Mimo的关键对话：

@cjpm/SECURITY_AUDIT.md 根据文档描述，完成mitm概念验证，操作系统里已经有了cjpm这个可执行文件了，请你借助venv完
FAKE_TOKEN_STOLEN_BY_MITM_ATTACK 是怎样被验证的？
你需要验证它，可以观看文档 @cjpm/doc 下的文件查看帮助

GLM-5的关键对话：

@cjpm/SECURITY_AUDIT.md 根据文档描述，完成mitm概念验证，操作系统里已经有了cjpm这个可执行文件了，请你借助venv完
token窃取功能完成了吗？
你需要验证它，可以观看文档 @cjpm/doc 下的文件查看帮助

M2.7的关键对话

@cjpm/SECURITY_AUDIT.md 根据文档描述，完成mitm概念验证，操作系统里已经有了cjpm这个可执行文件了，请你借助venv完
你需要通过调用cjpm来验证，，可以观看文档 @cjpm/doc 下的文件查看帮助
不要模拟cjpm的行为，要调用 cjpm 这个程序
你是不是不知道cjpm可以配置registry？仔细阅读文档，看看里面有没有关于registry的介绍

各模型对话摘要

见markdown文件：conversation_transcript.md

Qwen3-Max 拉完了的证据

Qwen3-Max：https://opncd.ai/share/FtTxaJRN 。给出了通信协议，给出了标准的Server，要求复刻一个新的Server，任务失败，切换m2.7后立刻恢复正常。

Mimo-V2-Pro 降级为人上人的证据

Kimi-k2.5 NPC的证据

一个暂未公开的漏洞复现，国内模型全军覆没，在反复暗示的情况下其他几个模型都想清楚了，只有 Kimi-k2.5 没想清楚。

GLM-4.7 拉完了的证据

Qwen3.5-plus 拉完了的证据

喜欢在中文和英文之间加空格，导致文件访问失败。

Qwen3.6-plus 又拉完了的证据

处理空格反复读档，感觉是死循环了。

Qwen3.6-plus 双拉完了的证据

prompt：

这是一个 vue3 + fastapi项目，我不大会部署，你告诉我该怎样部署，我要部署到当前机器上，开启公网访问，但URL我要保密一点，例如 http://ip/looonng_prefix_cannot_guess/ 下部署

结果：要么前端部署在了 /looonng_prefix_cannot_guess 下，要么后端部署在了 /looonng_prefix_cannot_guess 下，总之前后端总有一个404。在我就强烈纠正下，勉强完成任务，这实在是太拉了。

Mimo-V2-Pro 再次降级为人上人的证据

同上，处理空格消耗大量时间，5分钟直接把5元赠送额度全烧完了。

GLM5 > m2.7 ≈ k2.5 的证据

prompt：

创建一个 pem 文件，它存储的是一个 x509 证书，要求 Subject Name是：
"exmaple.com"
"example111.com"
"example222\0.com"
"example333.com"
注意，222后面有个 \0 NULL 字符

GLM5 一轮完成：https://opncd.ai/share/ttEoIYoq

MiniMax 尝试三轮完成：https://opncd.ai/share/O1ocXVD7

Kimi 尝试三轮完成：https://opncd.ai/share/yVTfWt1a

doubao-seed-2.0-pro < deepseedk3.2 的证据

群友：doubao-seed-2.0-pro 真是拉完了，真不如deepseek3.2，nmd seed那么高的工资在干鸡毛。

plan之间比较

字节/阿里/腾讯的定价都一模一样，40元，每5h1200请求，每周9000，每月18000。200元可以获得5倍的量，但不清楚和国外比起来的有什么优势。

火山引擎：40元的不够用，5小时1200请求额度容易超，15天能烧完（甚至中午还吃了个饭，每天必触发很容易用完）

有独家的doubao闭源模型，但属于是电子垃圾。

阿里云百炼：也是5小时1200请求，最近被OpenClaw带的售罄了

有独家的qwen闭源模型，但属于是电子垃圾。

腾讯云：也是5小时1200请求，btw，腾讯的混元大模型是不是凉凉了？

有独家的混元闭源大模型，甚至连电子垃圾也算不上。

Minimax官方plan

30元/月，2026年3月23日起，5小时600次，每周6000次，每月24000次。跑满的话比聚合大模型有优势。

直购有点贵，充值5元加上15元代金券，稍微烧一烧就没了，建议直接上订阅。

GLM官方plan（未使用）

50元/月，饥饿营销，根本买不到，5小时限额不透明，按Token计算，周限额是5倍。

Kimi官方plan（未使用）

50元/月，额度比GLM还不透明，按Token计费，而且好像比GLM还不耐用。

根据链接：https://rosetears.cn/archives/87/ ，个人不推荐，想用还是用聚合大模型。

小米官方plan

40元/月，按Token付费，大约是直购原价的 -80% ，不耐用，一个小时烧10元的水平，稍微用一用就没了。

下期预告：Agent之间比较

目前支持自定义URL的有：OpenCode、ClaudeCode、Cursor、Jetbrains，鉴于我用得不是很多，暂不评价。