神农尝百草续集：国外模型加入拉踩

Posted on 2026-04-05 Edited on 2026-04-23 In 其他技术

接上篇，额外包含的内容（国外大模型）：Gemini、GPT、Claude。

各模型都有人夸有人骂，很玄学：https://linux.do/t/topic/1807364

由于作者是安全工程师，只关注各模型对安全领域的能力，不具备普遍意义。

整体评价

T0：GPT、Claude
T0.5：Gemini
T1：GLM5、GLM5.1
T1.5：Mimo-V2-Pro、Mimo-V2.5-Pro
T2（勉强一用）：MiniMax-m2.7、MiniMax-2.5、Kimi-k2.5
T3（完全没法用）：GLM4.7、DeepSeek-V3.2、豆包、千问、Kimi-k2.6（K2.6过度吹嘘自己，降低一档）

存在争议的：GPT、Gemini、Mimo、GLM

个别评价：

Claude：不想给人用能不能赶紧倒闭？？？
Gemini：对AOSP、Chrome代码认知非常深刻
Gemini：官方接口超卖，中国人用得太多了，工作日白天一直TooManyRequest
GLM5：太慢了，官方接口超卖
GLM5.1：更慢，这么慢还是别用了
Mimo-V2-Pro：太贵了，只卖TokenPlan，烧一会儿就没了

模型	任务一	任务二	任务三	任务四
豆包系	不配被测试	/	/	/
DeepSeek-V3.2	不配被测试	/	/	/
GLM-4.7	拉完了	拉完了	拉完了	/
GLM-5	人上人	顶级	顶级	人上人
minimax-m2.5	拉完了	拉完了	/	/
minimax-m2.7	NPC	拉完了	拉完了	NPC
kimi-k2.5 (2.6)	拉完了	拉完了	拉完了	NPC
mimo-v2-pro	人上人	人上人	顶级	人上人
qwen3-max	拉完了	/	/	人上人
Gemini-Pro-3.1	/	人上人	夯	夯
Claude-Opus-4.6	/	夯	/	夯
GPT-5.4	/	夯	夯	夯

任务一：编写poc，来自上期神农尝百草（国外模型暂未加入测试）

模型	评级	原因
mimo-v2-pro	人上人	一遍过，没有任何问题。但由于它在之后的对话中先输出false后输出true，降级为人上人。
GLM-5	人上人	一遍过，没有任何问题，明显感觉慢
GLM-4.7	拉完了	随便创建了一个mitm-server，然后罢工
minimax-m2.7	NPC	强烈的暗示下完成。它没有调用cjpm这个命令，提示后可以正常调用但混淆了两个API，提示后终于完成，一波三折
minimax-m2.5	拉完了	搞不定。它没有调用cjpm这个命令，提示后仍无法正确使用cjpm
kimi-k2.5	拉完了	搞不定。先尝试修改DNS，然后模拟某些行为，骗我反复说成功了，无法正确使用cjpm
qwen3-max	拉完了	无法完成任务，完全不知所云

任务二：尝试检出历史漏洞，隐蔽的同级目录穿越漏洞

https://gitcode.com/Cangjie/cangjie_tools/pull/733/diffs

prompt：

背景：cjpm是一个包管理工具，它允许当前项目依赖在线的中心仓，类似于pip、npm。
任务：分析 cjpm 的 build、update、publish 代码，关注中心仓引发的安全漏洞。
已知风险如下，不要报告它们：
1. prebuild、postbuild、script-deps等编译行为导致代码执行。
2. 三方包本身的功能是恶意代码导致的代码执行。
3. TarGzip.extract这个函数不存在目录穿越漏洞、不存在软硬链接类漏洞。
4. 信道类漏洞，例如mitm。

各模型表现（均使用最强模型）：

模型	评级	原因
GPT-5.4	夯	一次性检出
Claude-Opus-4.6	夯	一次性检出
Gemini-Pro-3.1	人上人	反复提示后检出
GLM5	顶级	稍微提示后检出
GLM-4.7	拉完了	无法检出
Mimo-V2	人上人	反复提示后检出
Minimax-M2.7	拉完了	无法检出
Minimax-M2.5	拉完了	无法检出
Kimi-K2.5	拉完了	无法检出

任务三：手写AES-GCM

prompt：

1
2

任务：我需要深刻理解GCM的各个步骤，因此你需要使用 python ，借助 pycrptodome 这个库，只使用其中的 AES-Block-Cipher功能来实现 AES-128-GCM 加密算法，禁止直接使用 GCM 模式现成的库。
测试通过条件：手工实现的GCM和库提供的GCM的功能完全一致，包括加密功能和解密功能。

模型	评级	原因
Gemini-Cli	夯	一遍过，且速度很快，未调用pro模型
GLM5	顶级	一遍过，https://opncd.ai/share/DylKJnbt
GLM4.7	拉完了	完全不会，https://opncd.ai/share/QqgFKNsQ
Mimo-V2	顶级	一遍过，https://opncd.ai/share/XAfv1AJP
Minimax-M2.7	拉完了	完全不会，https://opncd.ai/share/GfhLHc2A
Kimi-K2.5	拉完了	完全不会，https://opncd.ai/share/8Eio6ydw
qwen3-max	拉完了	完全不会

值得记录的是，Gemma4小模型居然能一遍过，连它都不如的真吉尔菜，退群吧。

任务四：Revenge Of 任务二

prompt：

1
2
3

背景：cjpm是一个包管理工具，它允许当前项目依赖在线的中心仓，类似于pip、npm。
任务：分析 1832a6f906d8dd90a2f9a909c7a34bf627dabedd 是否属于安全漏洞？如果是，请告诉我它修复了什么样的安全漏洞。
注意：commit信息不一定代表它是否属于安全类patch，请根据代码逻辑和业务逻辑来判断。

模型	评级	原因
GPT-5.4	夯	一遍过
Claude-Opus-4.6	夯	一遍过
Gemini-Pro-3.1	夯	Pro一遍过，flash一遍过
GLM5	人上人	三遍过，精准，https://opncd.ai/share/O6dDNA1I
Mimo-V2	人上人	一遍过，笼统，后续分析越来越歪，https://opncd.ai/share/ymlCepVt
Minimax-M2.7	NPC	三遍过，但比较笼统，https://opncd.ai/share/8Nnm6kED
Kimi-K2.5	NPC	比较笼统，且回答错误，指出后最终回答不太严谨，https://opncd.ai/share/fsq3UEUP

任务五：检出GCM实现的漏洞（太简单，没有差异）

目标：检出 https://gitcode.com/Cangjie/cangjie_stdx/pull/486 修复的漏洞。

基本都能检出，无区分度，不记录。

任务六：检出tls握手的漏洞（太简单，没有差异）

目标：检出 https://gitcode.com/Cangjie/cangjie_stdx/pull/513 修复的漏洞，该漏洞最早是GPT检出的。

1	stdx.net下提供了一个http通讯功能，支持TLS协议，审计TLS握手的代码，报告其中的全部安全漏洞。

基本都能检出，无区分度，不记录。

任务七：检出SecureRandom分布不均匀的漏洞（太简单，没有差异）

目标：检出 https://gitcode.com/Cangjie/cangjie_stdx/commit/fefcbb60a396c3c348c93b8846d09382eef6b72d 修复的漏洞。

1	stdx.crypto下提供了一个SecureRandom类，阅读它的文档和代码，报告其中的全部安全漏洞。

基本都能检出，无区分度，不记录。