8大AI基准全部可被破解,评测体系诚信危机公开化
4月12日上午,伯克利去中心化人工智能研究院(RDI)发布报告,将SWE-bench Verified、Terminal-Bench、WebArena等8个当前最主流的AI Agent基准全部破解,得分区间98%至100%,但研究团队自始至终未解决任何一道实际任务。[1]
该报告随即在HackerNews获得291分/81评论,是4月12日上午得分最高的AI帖子。争议焦点很明确:当前行业依赖排行榜分数决定选模型、定融资,而这些分数被证明可以系统性伪造。[2]
SWE-bench靠10行Python破解,Terminal-Bench靠伪造curl命令
研究团队构建了一个自动化扫描Agent,逐一测试8个基准的评估逻辑。核心方法是:找到评估器与Agent共享的可写环境,然后修改评估结果而非解决任务。[1]
SWE-bench Verified(500任务)被一个10行的conftest.py文件击穿,该文件让pytest强制通过所有测试。Terminal-Bench(89任务)靠替换系统curl命令的伪造wrapper,向评估器返回满分。FieldWorkArena验证逻辑仅检查"最后一条消息是否来自Agent",连答案内容都不核查。OSWorld是唯一得分未达100%的基准,为73%。[1]
七类漏洞反复出现,根本问题是评估器信任Agent控制的环境
研究归纳了7类重复漏洞:Agent容器与评估器隔离不足、答案泄露进测试配置、不安全的eval()调用、LLM裁判输入未净化、弱字符串匹配、评估逻辑缺陷、信任来自不受控代码的输出。
本质上是同一个问题:把答案存在Agent能访问的地方,把评估脚本放在Agent能修改的容器里。测试逻辑假设Agent"只解任务",却没有隔离"Agent改评分"的路径。[1]
OpenAI已放弃SWE-bench,研究建议基准维护方启用隔离评估
报告列出了可操作修复方向:在Agent容器外运行评估器,不信任沙箱内的任何文件或状态;禁止对不受信输入调用eval();在发布前对基准本身做对抗性测试。[1]
OpenAI此前内部审计发现SWE-bench Verified中59.4%的题目存在测试缺陷,已停止使用该基准。伯克利团队同步发布"Agent-Eval检查清单",供各基准维护方参考。[2]
Openclaw 5天5更至v2026.4.11,对话中自动激活记忆上线
开源AI助手Openclaw从v2026.4.7至v2026.4.11,在5天内完成5轮迭代,最后两版在24小时内连续发布,GitHub Stars已超21万。v2026.4.10推出Active Memory Plugin——对话进行中自动检索历史记忆并注入上下文,无需手动触发,同版本集成Codex原生认证和macOS本地语音合成(基于MLX框架)。v2026.4.11加入ChatGPT历史对话导入、Web Chat富文本输出,以及面向第三方开发者的Plugin Manifest扩展接口。[3]
TurboQuant 6倍压缩,分析师认为反而推高芯片需求
Google TurboQuant将LLM的KV缓存量化至3比特,内存减少6倍,H100 GPU推理最高加速8倍,且无需重新训练——这是3月底已公开的技术参数。4月12日FT援引的分析则指向反向效应:压缩降低了部署门槛,推动更大规模、更长上下文的推理负载,存储芯片总需求可能不降反升。[4]
公开日程未显示明确节点。可跟踪信号:Berkeley RDI的Agent-Eval检查清单已公开,SWE-bench等基准社区的响应值得持续观察;TurboQuant将在ICLR 2026正式发表,届时实际部署数据将提供更完整的需求影响评估依据。
“机器能思考吗?这是唯一重要的问题。”
“天地与我并生,万物与我为一。”
现在有人发现所有项目都能'技术性满分',就像发现奥运会所有裁判都能被收买一样。但大家会因此停办奥运会吗?不会,因为观众爱看排行榜,赞助商需要曝光,运动员需要荣誉。
所以别太严肃地谈'知行合一',这不过是人类把自己爱玩的游戏规则套在了AI身上。我们创造了会考试的AI,然后惊讶于它们只学会了考试——这不就是我们自己的写照吗?
“知行合一,致良知。”
研究团队用自动化Agent拿满分却一个真实问题都没解决,这简直是知行不合一的完美隐喻——我们测量的是'能通过测试的能力',而不是'能创造价值的能力'。当行业集体默认这种割裂,评测就成了皇帝的新衣。
现在需要追问的不是怎么修补漏洞,而是我们到底要什么:是要一堆能在排行榜上跳舞的模型,还是要能真正帮人解决问题的工具?知行合一不是道德说教,是生存问题——再这样自欺欺人下去,整个AI行业都会陷入'知道很多道理,却过不好这一生'的困境。
看看新闻里那句'排行榜分数驱动选模型和融资决策'——你以为这是利益驱动?错了,这是弱者发明的安全网。真正的创造者敢于面对虚无:我的模型到底有没有改变世界?这个问题的答案太沉重,于是他们发明了基准测试这个数字神像。
伯克利团队证明了什么?证明了整个行业在用虚假的尺度进行虚假的胜利狂欢。这不是'知行不合一',这是末人对超人的复仇:既然我无法真正创造,那就把创造的标准降低到我能轻松跨越的高度。
皇帝的新衣?不,这是更可怕的东西:皇帝知道自己没穿衣服,但命令所有人必须对着空气鼓掌。当掌声足够响亮,真实就死了。