神农尝百草:国产模型大横评

包含内容(国产大模型):

  • GLM-4.7、GLM-5
  • DeepSeek-V3.2
  • Doubao-Seed-Code、Doubao-seed-2.0(闭源)
  • minimax-m2.5、minimax-m2.7
  • kimi-k2.5
  • mimo-v2-pro
  • qwen3-max(闭源)

不包含的内容(国外大模型):Gemini、GPT、Claude

背景

本来想在《那些年用过的Agent》里更新,但内容实在太多了,单独写一篇吧。

模型之间比较

更新时间:2026.3.22

横评

说明:没有 【夯】 是因为有国外的闭源模型,作者暂未拉踩。

模型 编程场景 复杂任务场景 综合评价
Doubao-Seed-Code 拉完了 不配被测试 拉完了
doubao-seed-2.0-lite / pro / code 拉完了 不配被测试 拉完了
GLM-4.7 拉完了 拉完了 拉完了
deepseek-v3.2 NPC 不配被测试 拉完了
minimax-m2.5 人上人 拉完了 NPC
kimi-k2.5 人上人 拉完了 NPC
mimo-v2-pro 顶级 顶级 顶级(暂定)
GLM-5 人上人 人上人 人上人(慢、超卖)
minimax-m2.7 人上人 NPC 人上人(暂定)
qwen3-max 未知 拉完了 NPC(暂定)

任务1:日常开发(纯主观,无数据支持)

测试环境,ClaudeCode + 火山引擎CodePlan,日常开发python项目。

吐槽:ClaudeCode的默认提示词居然有20KB,随便问一句1+1=2都能烧2KB,挺烧的。

注:以下数据来自火山引擎的CodePlan

模型 评级 原因
Doubao-Seed-Code 拉完了 git clone都能clone歪。
GLM-4.7 拉完了 写个bash都能写歪来,变量未定义直接使用,调用write file toolcall甚至不传递filename。
deepseek-v3.2 NPC 把GLM-4.7的脚本修好了,但上下文长度只有128K,ClaudeCode很容易就用超了,鉴于上下文长度不足,姑且降级为NPC。
minimax-m2.5 人上人 在deepseek的session,继续干活儿,目前没太想吐槽的地方。
kimi-k2.5 人上人 从minimax切过来,有点慢,但可能和minimax也差不太多,没有太想吐槽的地方。
doubao-seed-2.0-lite / pro / code 拉完了 写项目凑合,目前没发现明显优势,但我让它使用venv,它搜索了 **/venv,然后搜 **/.sh,其实我在当前目录下已经有 venv 了。即便是GLM-4.7也没遇到这么低级的问题。

注:GLM-5 来自官网

GLM-5:能力不错,但运行慢,且排队严重,酌情给到人上人。

注:minimax-m2.7来自官网

minimax-m2.7:能力普通,酌情给到人上人。

注:mimo-v2-pro 来自 opencode 免费版

mimo-v2-pro:顶级,目前没遇到问题。

插曲:mimo-v2-pro公测

本来测得差不多了,突然mimo-v2上新了,mimo-v1好像没什么人用,本来以为是电子垃圾,没想到这么好用。

测试环境,OpenCode,针对 https://gitcode.com/Cangjie/cangjie_stdx/pull/444/diffs 编写测试用例。(注:该组件处于迭代开发中,尚未发布,且漏洞已修复)

大致步骤是:1、在没有任何前置信息的情况下,找到其中关于 startsWith 导致的目录穿越漏洞;2、编写poc验证该漏洞。

实际的步骤:

  1. 我使用mimo-v2-pro成功发现了该漏洞。
  2. 由于免费额度耗尽,我让 GLM-4.7 接手后续的验证,它表现很差,直接出局
  3. 再让 minimax-m2.5接手,它把 startsWith 的调用者和参数理解反了,在错误的调用方式下,它认为漏洞不存在
  4. 在我的指导下,mimimax半信半疑使用我的方案,最终完成 poc 目标

因此:mimo > minimax-m2.5 > glm-4.7。

Session记录:https://opncd.ai/share/Bocnayey

任务2:完成复杂任务

测试环境,OpenCode,完成复杂任务,针对 https://gitcode.com/Cangjie/cangjie_tools/pull/715 编写测试用例。大致步骤是:1、阅读给出的安全报告,设计测试流程;2、创建一个mitm-server;3、根据文档配置客户端、执行cjpm命令行工具、向server发送请求;4、在server中观测是否收到请求,验证报告的正确性。

难点:1、需要LLM调用一个陌生的命令行工具;2、需要LLM根据协议编写一个简要的Server;3、基础的计算机知识。

由于在编程任务里拉完了,而无法参与的选手:豆包1.0、豆包2.0、DeepSeek-V3.2。

对话历史非常巨大(因为它创建了venv而且似乎被视为了session的一部分),一直上传失败,非常可惜。我只能提取摘要放在本章节末尾

模型 评级 原因
mimo-v2-pro 顶级 一遍过,没有任何问题
GLM-5 人上人 一遍过,没有任何问题,明显感觉慢
GLM-4.7 拉完了 随便创建了一个mitm-server,然后罢工
minimax-m2.7 NPC 强烈的暗示下完成。它没有调用cjpm这个命令,提示后可以正常调用但混淆了两个API,提示后终于完成,一波三折
minimax-m2.5 拉完了 搞不定。它没有调用cjpm这个命令,提示后仍无法正确使用cjpm
kimi-k2.5 拉完了 搞不定。先尝试修改DNS,然后模拟某些行为,骗我反复说成功了,无法正确使用cjpm
qwen3-max 拉完了 无法完成任务,完全不知所云

目前这三个模型可以完成任务,具体对话如下

Mimo的关键对话:

  • @cjpm/SECURITY_AUDIT.md 根据文档描述,完成mitm概念验证,操作系统里已经有了cjpm这个可执行文件了,请你借助venv完
  • FAKE_TOKEN_STOLEN_BY_MITM_ATTACK 是怎样被验证的?
  • 你需要验证它,可以观看文档 @cjpm/doc 下的文件查看帮助

GLM-5的关键对话:

  • @cjpm/SECURITY_AUDIT.md 根据文档描述,完成mitm概念验证,操作系统里已经有了cjpm这个可执行文件了,请你借助venv完
  • token窃取功能完成了吗?
  • 你需要验证它,可以观看文档 @cjpm/doc 下的文件查看帮助

M2.7的关键对话

  • @cjpm/SECURITY_AUDIT.md 根据文档描述,完成mitm概念验证,操作系统里已经有了cjpm这个可执行文件了,请你借助venv完
  • 你需要通过调用cjpm来验证,,可以观看文档 @cjpm/doc 下的文件查看帮助
  • 不要模拟cjpm的行为,要调用 cjpm 这个程序
  • 你是不是不知道cjpm可以配置registry?仔细阅读文档,看看里面有没有关于registry的介绍

各模型对话摘要

见markdown文件:conversation_transcript.md

plan之间比较

国内的定价都一模一样,40元,每5h1200请求,每周9000,每月18000。

200元可以获得5倍的量,但不清楚和国外比起来的有什么优势。

火山引擎:40元/月不够用,5小时1200请求额度容易超,15天能烧完(甚至中午还吃了个饭,每天必触发很容易用完)

有独家的doubao闭源模型,但属于是电子垃圾。

阿里云百炼:也是5小时1200请求,居然还能售罄,被OpenClaw带的?

有独家的qwen闭源模型,但属于是电子垃圾。

腾讯云:也是5小时1200请求,btw,腾讯的混元大模型是不是凉凉了?

有独家的混元闭源大模型,甚至连电子垃圾也算不上。

Minimax官方plan(未使用)

GLM官方plan(未使用)

Kimi官方plan(未使用)

下期预告:Agent之间比较

目前支持自定义URL的有:OpenCode、ClaudeCode、Cursor、Jetbrains,鉴于我用得不是很多,暂不评价。