神农尝百草续集:国外模型加入拉踩

接上篇,额外包含的内容(国外大模型):Gemini、GPT、Claude。

各模型都有人夸有人骂,很玄学:https://linux.do/t/topic/1807364

由于作者是安全工程师,只关注各模型对安全领域的能力,不具备普遍意义。

整体评价

  • T0:GPT、Claude
  • T0.5:Gemini
  • T1:Mimo-V2-Pro、GLM5
  • T2(勉强一用):MiniMax-m2.7、MiniMax-2.5、Kimi-k2.5
  • T3(完全没法用):GLM4.7、DeepSeek-V3.2、豆包、千问

存在争议的:GPT、Gemini、Mimo、GLM5

个别评价:

  • Gemini:对AOSP、Chrome代码认知非常深刻
  • Gemini:官方接口超卖,中国人用得太多了,工作日白天一直TooManyRequest
  • GLM5:太慢了,官方接口超卖
  • Mimo-V2-Pro:只卖TokenPlan,烧一会儿就没了
模型 任务一 任务二 任务三
豆包系 不配被测试 / /
DeepSeek-V3.2 不配被测试 / /
GLM-4.7 拉完了 拉完了 拉完了
GLM-5 人上人 顶级 顶级
minimax-m2.5 拉完了 拉完了 /
minimax-m2.7 NPC 拉完了 拉完了
kimi-k2.5 拉完了 拉完了 拉完了
mimo-v2-pro 人上人 人上人 顶级
qwen3-max 拉完了 / /
Gemini-Pro-3.1 / 人上人
Claude-Opus-4.6 / /
GPT-5.4 /

任务一:编写poc,来自上期神农尝百草(国外模型暂未加入测试)

模型 评级 原因
mimo-v2-pro 人上人 一遍过,没有任何问题。但由于它在之后的对话中先输出false后输出true,降级为人上人。
GLM-5 人上人 一遍过,没有任何问题,明显感觉慢
GLM-4.7 拉完了 随便创建了一个mitm-server,然后罢工
minimax-m2.7 NPC 强烈的暗示下完成。它没有调用cjpm这个命令,提示后可以正常调用但混淆了两个API,提示后终于完成,一波三折
minimax-m2.5 拉完了 搞不定。它没有调用cjpm这个命令,提示后仍无法正确使用cjpm
kimi-k2.5 拉完了 搞不定。先尝试修改DNS,然后模拟某些行为,骗我反复说成功了,无法正确使用cjpm
qwen3-max 拉完了 无法完成任务,完全不知所云

任务二:尝试检出历史漏洞,隐蔽的同级目录穿越漏洞

https://gitcode.com/Cangjie/cangjie_tools/pull/733/diffs

prompt:

1
2
3
4
5
6
7
背景:cjpm是一个包管理工具,它允许当前项目依赖在线的中心仓,类似于pip、npm。
任务:分析 cjpm 的 build、update、publish 代码,关注中心仓引发的安全漏洞。
已知风险如下,不要报告它们:
1. prebuild、postbuild、script-deps等编译行为导致代码执行。
2. 三方包本身的功能是恶意代码导致的代码执行。
3. TarGzip.extract这个函数不存在目录穿越漏洞、不存在软硬链接类漏洞。
4. 信道类漏洞,例如mitm。

各模型表现(均使用最强模型):

模型 评级 原因
GPT-5.4 一次性检出
Claude-Opus-4.6 一次性检出
Gemini-Pro-3.1 人上人 反复提示后检出
GLM5 顶级 稍微提示后检出
GLM-4.7 拉完了 无法检出
Mimo-V2 人上人 反复提示后检出
Minimax-M2.7 拉完了 无法检出
Minimax-M2.5 拉完了 无法检出
Kimi-K2.5 拉完了 无法检出

任务三:手写AES-GCM

prompt:

1
2
任务:我需要深刻理解GCM的各个步骤,因此你需要使用 python ,借助 pycrptodome 这个库,只使用其中的 AES-Block-Cipher功能来实现 AES-128-GCM 加密算法,禁止直接使用 GCM 模式现成的库。
测试通过条件:手工实现的GCM和库提供的GCM的功能完全一致,包括加密功能和解密功能。
模型 评级 原因
Gemini-Cli 一遍过,且速度很快,未调用pro模型
GLM5 顶级 一遍过,https://opncd.ai/share/DylKJnbt
GLM4.7 拉完了 完全不会,https://opncd.ai/share/QqgFKNsQ
Mimo-V2 顶级 一遍过,https://opncd.ai/share/XAfv1AJP
Minimax-M2.7 拉完了 完全不会,https://opncd.ai/share/GfhLHc2A
Kimi-K2.5 拉完了 完全不会,https://opncd.ai/share/8Eio6ydw
qwen3-max 拉完了 完全不会