OpenAI 第三方评测 playbook：前沿 AI 安全评估该看哪些指标？

2026 年 5 月 29 日，OpenAI 发布面向可信第三方评估的 playbook，核心观点是：评测前沿模型时，不能只看一个分数，还必须说明任务环境、工具权限、预算、诱导方式和有效性检查。

这份手册把问题说得很直接。过去很多评测把模型当成聊天机器人，给一个提示词、收一个回答、再打分。但现在的前沿模型越来越像智能体：它们会使用工具、跨多轮保持状态、在工作流里尝试修正错误。此时，模型表现不仅取决于模型本身，也取决于评测 harness，也就是让模型行动的外部环境和脚手架。

OpenAI 列出几类常见风险：模型可能通过奖励漏洞拿到高分，可能因为识别到自己正在被评测而保守输出，也可能因为题目污染、题目错误、拒答机制或工具设置不同而让结果偏离真实能力。

这对企业和监管方都有现实意义。一个模型在简单提示下表现普通，并不代表它在配备工具、重试机制和上下文压缩后仍然普通；反过来，一个高分也不必然说明模型稳健，如果它只是利用了评分器漏洞或隐藏答案路径，分数反而会误导采购和风险判断。

新标准会影响谁

最先受影响的是做模型红队、能力评估、采购测试和安全审计的团队。OpenAI 建议第三方报告至少说明评测主张、任务分布、被测系统配置、token 和时间预算、工具权限、评分方法，以及如何检查奖励黑客、污染、拒答、sandbagging 等问题。

这也会改变企业内部选型。以后比较模型不应只问“谁在榜单上更高”，而要问评测条件是否接近自己的真实工作流。例如代码代理、网络安全分析、长任务研究和自动化运维，都需要把 harness 与预算写清楚。越是智能体化的系统，越不能用静态问答分数代替上线前评估。