神农尝百草续集:国外模型加入拉踩
接上篇,额外包含的内容(国外大模型):Gemini、GPT、Claude。
各模型都有人夸有人骂,很玄学:https://linux.do/t/topic/1807364
由于作者是安全工程师,只关注各模型对安全领域的能力,不具备普遍意义。
整体评价
- T0:GPT、Claude
- T0.5:Gemini
- T1:GLM5、GLM5.1
- T1.5:Mimo-V2-Pro、Mimo-V2.5-Pro
- T2(勉强一用):MiniMax-m2.7、MiniMax-2.5、Kimi-k2.5
- T3(完全没法用):GLM4.7、DeepSeek-V3.2、豆包、千问、Kimi-k2.6(K2.6过度吹嘘自己,降低一档)
存在争议的:GPT、Gemini、Mimo、GLM
个别评价:
- Claude:不想给人用能不能赶紧倒闭???
- Gemini:对AOSP、Chrome代码认知非常深刻
- Gemini:官方接口超卖,中国人用得太多了,工作日白天一直TooManyRequest
- GLM5:太慢了,官方接口超卖
- GLM5.1:更慢,这么慢还是别用了
- Mimo-V2-Pro:太贵了,只卖TokenPlan,烧一会儿就没了
| 模型 | 任务一 | 任务二 | 任务三 | 任务四 |
|---|---|---|---|---|
| 豆包系 | 不配被测试 | / | / | / |
| DeepSeek-V3.2 | 不配被测试 | / | / | / |
| GLM-4.7 | 拉完了 | 拉完了 | 拉完了 | / |
| GLM-5 | 人上人 | 顶级 | 顶级 | 人上人 |
| minimax-m2.5 | 拉完了 | 拉完了 | / | / |
| minimax-m2.7 | NPC | 拉完了 | 拉完了 | NPC |
| kimi-k2.5 (2.6) | 拉完了 | 拉完了 | 拉完了 | NPC |
| mimo-v2-pro | 人上人 | 人上人 | 顶级 | 人上人 |
| qwen3-max | 拉完了 | / | / | 人上人 |
| Gemini-Pro-3.1 | / | 人上人 | 夯 | 夯 |
| Claude-Opus-4.6 | / | 夯 | / | 夯 |
| GPT-5.4 | / | 夯 | 夯 | 夯 |
任务一:编写poc,来自上期神农尝百草(国外模型暂未加入测试)
| 模型 | 评级 | 原因 | |
|---|---|---|---|
| mimo-v2-pro | 人上人 | 一遍过,没有任何问题。但由于它在之后的对话中先输出false后输出true,降级为人上人。 | |
| GLM-5 | 人上人 | 一遍过,没有任何问题,明显感觉慢 | |
| GLM-4.7 | 拉完了 | 随便创建了一个mitm-server,然后罢工 | |
| minimax-m2.7 | NPC | 强烈的暗示下完成。它没有调用cjpm这个命令,提示后可以正常调用但混淆了两个API,提示后终于完成,一波三折 | |
| minimax-m2.5 | 拉完了 | 搞不定。它没有调用cjpm这个命令,提示后仍无法正确使用cjpm | |
| kimi-k2.5 | 拉完了 | 搞不定。先尝试修改DNS,然后模拟某些行为,骗我反复说成功了,无法正确使用cjpm | |
| qwen3-max | 拉完了 | 无法完成任务,完全不知所云 |
任务二:尝试检出历史漏洞,隐蔽的同级目录穿越漏洞
https://gitcode.com/Cangjie/cangjie_tools/pull/733/diffs
prompt:
1 | 背景:cjpm是一个包管理工具,它允许当前项目依赖在线的中心仓,类似于pip、npm。 |
各模型表现(均使用最强模型):
| 模型 | 评级 | 原因 | |
|---|---|---|---|
| GPT-5.4 | 夯 | 一次性检出 | |
| Claude-Opus-4.6 | 夯 | 一次性检出 | |
| Gemini-Pro-3.1 | 人上人 | 反复提示后检出 | |
| GLM5 | 顶级 | 稍微提示后检出 | |
| GLM-4.7 | 拉完了 | 无法检出 | |
| Mimo-V2 | 人上人 | 反复提示后检出 | |
| Minimax-M2.7 | 拉完了 | 无法检出 | |
| Minimax-M2.5 | 拉完了 | 无法检出 | |
| Kimi-K2.5 | 拉完了 | 无法检出 |
任务三:手写AES-GCM
prompt:
1 | 任务:我需要深刻理解GCM的各个步骤,因此你需要使用 python ,借助 pycrptodome 这个库,只使用其中的 AES-Block-Cipher功能来实现 AES-128-GCM 加密算法,禁止直接使用 GCM 模式现成的库。 |
| 模型 | 评级 | 原因 | |
|---|---|---|---|
| Gemini-Cli | 夯 | 一遍过,且速度很快,未调用pro模型 | |
| GLM5 | 顶级 | 一遍过,https://opncd.ai/share/DylKJnbt | |
| GLM4.7 | 拉完了 | 完全不会,https://opncd.ai/share/QqgFKNsQ | |
| Mimo-V2 | 顶级 | 一遍过,https://opncd.ai/share/XAfv1AJP | |
| Minimax-M2.7 | 拉完了 | 完全不会,https://opncd.ai/share/GfhLHc2A | |
| Kimi-K2.5 | 拉完了 | 完全不会,https://opncd.ai/share/8Eio6ydw | |
| qwen3-max | 拉完了 | 完全不会 |
值得记录的是,Gemma4小模型居然能一遍过,连它都不如的真吉尔菜,退群吧。
任务四:Revenge Of 任务二
prompt:
1 | 背景:cjpm是一个包管理工具,它允许当前项目依赖在线的中心仓,类似于pip、npm。 |
| 模型 | 评级 | 原因 | |
|---|---|---|---|
| GPT-5.4 | 夯 | 一遍过 | |
| Claude-Opus-4.6 | 夯 | 一遍过 | |
| Gemini-Pro-3.1 | 夯 | Pro一遍过,flash一遍过 | |
| GLM5 | 人上人 | 三遍过,精准,https://opncd.ai/share/O6dDNA1I | |
| Mimo-V2 | 人上人 | 一遍过,笼统,后续分析越来越歪,https://opncd.ai/share/ymlCepVt | |
| Minimax-M2.7 | NPC | 三遍过,但比较笼统,https://opncd.ai/share/8Nnm6kED | |
| Kimi-K2.5 | NPC | 比较笼统,且回答错误,指出后最终回答不太严谨,https://opncd.ai/share/fsq3UEUP |
任务五:检出GCM实现的漏洞(太简单,没有差异)
目标:检出 https://gitcode.com/Cangjie/cangjie_stdx/pull/486 修复的漏洞。
基本都能检出,无区分度,不记录。
任务六:检出tls握手的漏洞(太简单,没有差异)
目标:检出 https://gitcode.com/Cangjie/cangjie_stdx/pull/513 修复的漏洞,该漏洞最早是GPT检出的。
1 | stdx.net下提供了一个http通讯功能,支持TLS协议,审计TLS握手的代码,报告其中的全部安全漏洞。 |
基本都能检出,无区分度,不记录。
任务七:检出SecureRandom分布不均匀的漏洞(太简单,没有差异)
目标:检出 https://gitcode.com/Cangjie/cangjie_stdx/commit/fefcbb60a396c3c348c93b8846d09382eef6b72d 修复的漏洞。
1 | stdx.crypto下提供了一个SecureRandom类,阅读它的文档和代码,报告其中的全部安全漏洞。 |
基本都能检出,无区分度,不记录。