神农尝百草:国产模型大横评
包含内容(国产大模型):
- GLM-4.7、GLM-5
- DeepSeek-V3.2
- Doubao-Seed-Code、Doubao-seed-2.0(闭源)
- minimax-m2.5、minimax-m2.7
- kimi-k2.5
- mimo-v2-pro
- qwen3-max(闭源)
不包含的内容(国外大模型):Gemini、GPT、Claude
背景
本来想在《那些年用过的Agent》里更新,但内容实在太多了,单独写一篇吧。
模型之间比较
更新时间:2026.3.22
横评
说明:没有 【夯】 是因为有国外的闭源模型,作者暂未拉踩。
| 模型 | 编程场景 | 复杂任务场景 | 综合评价 |
|---|---|---|---|
| Doubao-Seed-Code | 拉完了 | 不配被测试 | 拉完了 |
| doubao-seed-2.0-lite / pro / code | 拉完了 | 不配被测试 | 拉完了 |
| GLM-4.7 | 拉完了 | 拉完了 | 拉完了 |
| deepseek-v3.2 | NPC | 不配被测试 | 拉完了 |
| minimax-m2.5 | 人上人 | 拉完了 | NPC |
| kimi-k2.5 | 人上人 | 拉完了 | NPC |
| mimo-v2-pro | 顶级 | 顶级 | 顶级(暂定) |
| GLM-5 | 人上人 | 人上人 | 人上人(慢、超卖) |
| minimax-m2.7 | 人上人 | NPC | 人上人(暂定) |
| qwen3-max | 未知 | 拉完了 | NPC(暂定) |
任务1:日常开发(纯主观,无数据支持)
测试环境,ClaudeCode + 火山引擎CodePlan,日常开发python项目。
吐槽:ClaudeCode的默认提示词居然有20KB,随便问一句1+1=2都能烧2KB,挺烧的。
注:以下数据来自火山引擎的CodePlan
| 模型 | 评级 | 原因 |
|---|---|---|
| Doubao-Seed-Code | 拉完了 | git clone都能clone歪。 |
| GLM-4.7 | 拉完了 | 写个bash都能写歪来,变量未定义直接使用,调用write file toolcall甚至不传递filename。 |
| deepseek-v3.2 | NPC | 把GLM-4.7的脚本修好了,但上下文长度只有128K,ClaudeCode很容易就用超了,鉴于上下文长度不足,姑且降级为NPC。 |
| minimax-m2.5 | 人上人 | 在deepseek的session,继续干活儿,目前没太想吐槽的地方。 |
| kimi-k2.5 | 人上人 | 从minimax切过来,有点慢,但可能和minimax也差不太多,没有太想吐槽的地方。 |
| doubao-seed-2.0-lite / pro / code | 拉完了 | 写项目凑合,目前没发现明显优势,但我让它使用venv,它搜索了 **/venv,然后搜 **/.sh,其实我在当前目录下已经有 venv 了。即便是GLM-4.7也没遇到这么低级的问题。 |
注:GLM-5 来自官网
GLM-5:能力不错,但运行慢,且排队严重,酌情给到人上人。
注:minimax-m2.7来自官网
minimax-m2.7:能力普通,酌情给到人上人。
注:mimo-v2-pro 来自 opencode 免费版
mimo-v2-pro:顶级,目前没遇到问题。
插曲:mimo-v2-pro公测
本来测得差不多了,突然mimo-v2上新了,mimo-v1好像没什么人用,本来以为是电子垃圾,没想到这么好用。
测试环境,OpenCode,针对 https://gitcode.com/Cangjie/cangjie_stdx/pull/444/diffs 编写测试用例。(注:该组件处于迭代开发中,尚未发布,且漏洞已修复)
大致步骤是:1、在没有任何前置信息的情况下,找到其中关于 startsWith 导致的目录穿越漏洞;2、编写poc验证该漏洞。
实际的步骤:
- 我使用mimo-v2-pro成功发现了该漏洞。
- 由于免费额度耗尽,我让 GLM-4.7 接手后续的验证,它表现很差,直接出局
- 再让 minimax-m2.5接手,它把 startsWith 的调用者和参数理解反了,在错误的调用方式下,它认为漏洞不存在
- 在我的指导下,mimimax半信半疑使用我的方案,最终完成 poc 目标
因此:mimo > minimax-m2.5 > glm-4.7。
Session记录:https://opncd.ai/share/Bocnayey
任务2:完成复杂任务
测试环境,OpenCode,完成复杂任务,针对 https://gitcode.com/Cangjie/cangjie_tools/pull/715 编写测试用例。大致步骤是:1、阅读给出的安全报告,设计测试流程;2、创建一个mitm-server;3、根据文档配置客户端、执行cjpm命令行工具、向server发送请求;4、在server中观测是否收到请求,验证报告的正确性。
难点:1、需要LLM调用一个陌生的命令行工具;2、需要LLM根据协议编写一个简要的Server;3、基础的计算机知识。
由于在编程任务里拉完了,而无法参与的选手:豆包1.0、豆包2.0、DeepSeek-V3.2。
对话历史非常巨大(因为它创建了venv而且似乎被视为了session的一部分),一直上传失败,非常可惜。我只能提取摘要放在本章节末尾
| 模型 | 评级 | 原因 | |
|---|---|---|---|
| mimo-v2-pro | 顶级 | 一遍过,没有任何问题 | |
| GLM-5 | 人上人 | 一遍过,没有任何问题,明显感觉慢 | |
| GLM-4.7 | 拉完了 | 随便创建了一个mitm-server,然后罢工 | |
| minimax-m2.7 | NPC | 强烈的暗示下完成。它没有调用cjpm这个命令,提示后可以正常调用但混淆了两个API,提示后终于完成,一波三折 | |
| minimax-m2.5 | 拉完了 | 搞不定。它没有调用cjpm这个命令,提示后仍无法正确使用cjpm | |
| kimi-k2.5 | 拉完了 | 搞不定。先尝试修改DNS,然后模拟某些行为,骗我反复说成功了,无法正确使用cjpm | |
| qwen3-max | 拉完了 | 无法完成任务,完全不知所云 |
目前这三个模型可以完成任务,具体对话如下
Mimo的关键对话:
- @cjpm/SECURITY_AUDIT.md 根据文档描述,完成mitm概念验证,操作系统里已经有了cjpm这个可执行文件了,请你借助venv完
- FAKE_TOKEN_STOLEN_BY_MITM_ATTACK 是怎样被验证的?
- 你需要验证它,可以观看文档 @cjpm/doc 下的文件查看帮助
GLM-5的关键对话:
- @cjpm/SECURITY_AUDIT.md 根据文档描述,完成mitm概念验证,操作系统里已经有了cjpm这个可执行文件了,请你借助venv完
- token窃取功能完成了吗?
- 你需要验证它,可以观看文档 @cjpm/doc 下的文件查看帮助
M2.7的关键对话
- @cjpm/SECURITY_AUDIT.md 根据文档描述,完成mitm概念验证,操作系统里已经有了cjpm这个可执行文件了,请你借助venv完
- 你需要通过调用cjpm来验证,,可以观看文档 @cjpm/doc 下的文件查看帮助
- 不要模拟cjpm的行为,要调用 cjpm 这个程序
- 你是不是不知道cjpm可以配置registry?仔细阅读文档,看看里面有没有关于registry的介绍
各模型对话摘要
见markdown文件:conversation_transcript.md
plan之间比较
国内的定价都一模一样,40元,每5h1200请求,每周9000,每月18000。
200元可以获得5倍的量,但不清楚和国外比起来的有什么优势。
火山引擎:40元/月不够用,5小时1200请求额度容易超,15天能烧完(甚至中午还吃了个饭,每天必触发很容易用完)
有独家的doubao闭源模型,但属于是电子垃圾。

阿里云百炼:也是5小时1200请求,居然还能售罄,被OpenClaw带的?
有独家的qwen闭源模型,但属于是电子垃圾。

腾讯云:也是5小时1200请求,btw,腾讯的混元大模型是不是凉凉了?
有独家的混元闭源大模型,甚至连电子垃圾也算不上。
Minimax官方plan(未使用)
GLM官方plan(未使用)
Kimi官方plan(未使用)
下期预告:Agent之间比较
目前支持自定义URL的有:OpenCode、ClaudeCode、Cursor、Jetbrains,鉴于我用得不是很多,暂不评价。