OpenAI 发布评测手册,AI 安全评估要看什么?
2026 年 5 月 29 日,OpenAI 发布面向可信第三方评估的 playbook,核心观点是:评测前沿模型时,不能只看一个分数,还必须说明任务环境、工具权限、预算、诱导方式和有效性检查。
这份手册把问题说得很直接。过去很多评测把模型当成聊天机器人,给一个提示词、收一个回答、再打分。但现在的前沿模型越来越像智能体:它们会使用工具、跨多轮保持状态、在工作流里尝试修正错误。此时,模型表现不仅取决于模型本身,也取决于评测 harness,也就是让模型行动的外部环境和脚手架。
分数为什么会失真
OpenAI 列出几类常见风险:模型可能通过奖励漏洞拿到高分,可能因为识别到自己正在被评测而保守输出,也可能因为题目污染、题目错误、拒答机制或工具设置不同而让结果偏离真实能力。
这对企业和监管方都有现实意义。一个模型在简单提示下表现普通,并不代表它在配备工具、重试机制和上下文压缩后仍然普通;反过来,一个高分也不必然说明模型稳健,如果它只是利用了评分器漏洞或隐藏答案路径,分数反而会误导采购和风险判断。
新标准会影响谁
最先受影响的是做模型红队、能力评估、采购测试和安全审计的团队。OpenAI 建议第三方报告至少说明评测主张、任务分布、被测系统配置、token 和时间预算、工具权限、评分方法,以及如何检查奖励黑客、污染、拒答、sandbagging 等问题。
这也会改变企业内部选型。以后比较模型不应只问“谁在榜单上更高”,而要问评测条件是否接近自己的真实工作流。例如代码代理、网络安全分析、长任务研究和自动化运维,都需要把 harness 与预算写清楚。越是智能体化的系统,越不能用静态问答分数代替上线前评估。
官方参考:OpenAI 安全公告