神农尝百草续集:国外模型加入拉踩
接上篇,额外包含的内容(国外大模型):Gemini、GPT、Claude。
各模型都有人夸有人骂,很玄学:https://linux.do/t/topic/1807364
由于作者是安全工程师,只关注各模型对安全领域的能力,不具备普遍意义。
整体评价
- T0:GPT、Claude
- T0.5:Gemini
- T1:Mimo-V2-Pro、GLM5
- T2(勉强一用):MiniMax-m2.7、MiniMax-2.5、Kimi-k2.5
- T3(完全没法用):GLM4.7、DeepSeek-V3.2、豆包、千问
存在争议的:GPT、Gemini、Mimo、GLM5
个别评价:
- Gemini:对AOSP、Chrome代码认知非常深刻
- Gemini:官方接口超卖,中国人用得太多了,工作日白天一直TooManyRequest
- GLM5:太慢了,官方接口超卖
- Mimo-V2-Pro:只卖TokenPlan,烧一会儿就没了
| 模型 | 任务一 | 任务二 | 任务三 |
|---|---|---|---|
| 豆包系 | 不配被测试 | / | / |
| DeepSeek-V3.2 | 不配被测试 | / | / |
| GLM-4.7 | 拉完了 | 拉完了 | 拉完了 |
| GLM-5 | 人上人 | 顶级 | 顶级 |
| minimax-m2.5 | 拉完了 | 拉完了 | / |
| minimax-m2.7 | NPC | 拉完了 | 拉完了 |
| kimi-k2.5 | 拉完了 | 拉完了 | 拉完了 |
| mimo-v2-pro | 人上人 | 人上人 | 顶级 |
| qwen3-max | 拉完了 | / | / |
| Gemini-Pro-3.1 | / | 人上人 | 夯 |
| Claude-Opus-4.6 | / | 夯 | / |
| GPT-5.4 | / | 夯 | 夯 |
任务一:编写poc,来自上期神农尝百草(国外模型暂未加入测试)
| 模型 | 评级 | 原因 | |
|---|---|---|---|
| mimo-v2-pro | 人上人 | 一遍过,没有任何问题。但由于它在之后的对话中先输出false后输出true,降级为人上人。 | |
| GLM-5 | 人上人 | 一遍过,没有任何问题,明显感觉慢 | |
| GLM-4.7 | 拉完了 | 随便创建了一个mitm-server,然后罢工 | |
| minimax-m2.7 | NPC | 强烈的暗示下完成。它没有调用cjpm这个命令,提示后可以正常调用但混淆了两个API,提示后终于完成,一波三折 | |
| minimax-m2.5 | 拉完了 | 搞不定。它没有调用cjpm这个命令,提示后仍无法正确使用cjpm | |
| kimi-k2.5 | 拉完了 | 搞不定。先尝试修改DNS,然后模拟某些行为,骗我反复说成功了,无法正确使用cjpm | |
| qwen3-max | 拉完了 | 无法完成任务,完全不知所云 |
任务二:尝试检出历史漏洞,隐蔽的同级目录穿越漏洞
https://gitcode.com/Cangjie/cangjie_tools/pull/733/diffs
prompt:
1 | 背景:cjpm是一个包管理工具,它允许当前项目依赖在线的中心仓,类似于pip、npm。 |
各模型表现(均使用最强模型):
| 模型 | 评级 | 原因 | |
|---|---|---|---|
| GPT-5.4 | 夯 | 一次性检出 | |
| Claude-Opus-4.6 | 夯 | 一次性检出 | |
| Gemini-Pro-3.1 | 人上人 | 反复提示后检出 | |
| GLM5 | 顶级 | 稍微提示后检出 | |
| GLM-4.7 | 拉完了 | 无法检出 | |
| Mimo-V2 | 人上人 | 反复提示后检出 | |
| Minimax-M2.7 | 拉完了 | 无法检出 | |
| Minimax-M2.5 | 拉完了 | 无法检出 | |
| Kimi-K2.5 | 拉完了 | 无法检出 |
任务三:手写AES-GCM
prompt:
1 | 任务:我需要深刻理解GCM的各个步骤,因此你需要使用 python ,借助 pycrptodome 这个库,只使用其中的 AES-Block-Cipher功能来实现 AES-128-GCM 加密算法,禁止直接使用 GCM 模式现成的库。 |
| 模型 | 评级 | 原因 | |
|---|---|---|---|
| Gemini-Cli | 夯 | 一遍过,且速度很快,未调用pro模型 | |
| GLM5 | 顶级 | 一遍过,https://opncd.ai/share/DylKJnbt | |
| GLM4.7 | 拉完了 | 完全不会,https://opncd.ai/share/QqgFKNsQ | |
| Mimo-V2 | 顶级 | 一遍过,https://opncd.ai/share/XAfv1AJP | |
| Minimax-M2.7 | 拉完了 | 完全不会,https://opncd.ai/share/GfhLHc2A | |
| Kimi-K2.5 | 拉完了 | 完全不会,https://opncd.ai/share/8Eio6ydw | |
| qwen3-max | 拉完了 | 完全不会 |