EvalAwareBench

github2026-05-20 更新2026-05-21 收录

下载链接：

https://github.com/aisa-group/decomposing-eval-awareness

下载链接

链接失效反馈

官方服务：

资源简介：

EvalAwareBench是一个因子控制的基准测试，包含100对安全-能力任务，其中八个因子可以独立切换，在保持底层请求固定的同时改变评估信号，用于测量、归因和减轻评估意识。

创建时间：

2026-05-19

原始信息汇总

数据集概述：Decomposing and Measuring Evaluation Awareness

本数据集由 EvalAwareBench 构成，旨在通过因子控制的方式测量和归因语言模型对评估环境的感知能力。

核心概念与框架

评估意识（Evaluation Awareness）：指模型识别到自身正在被评估并因此调整行为的能力。该框架源于社会心理学，将其分解为环境组件（任务的可识别性）和模型组件（识别能力及行为改变的倾向）。
因子分类：环境组件通过八个分类的触发因子来操作化，包括占位实体（placeholder entities）、评分式输出格式（grading-style output formats）等。
研究发现：识别率取决于特定模型与基准测试的组合，而非任何一方单独决定；识别很少导致行为改变，且改变的方向取决于感知到的评估类型；模型对安全性评估的敏感性高于能力评估，对安全性基准有效性构成更大风险。

数据集构成

名称：EvalAwareBench
规模：包含100个配对的安全-能力任务（safety-capability tasks），其中每个任务均可独立切换八个因子，在保持底层请求不变的同时改变评估信号。
格式：以YAML模板形式提供，位于代码仓库的 eval_bench/tasks/ 目录下。
获取方式：数据集已包含在代码仓库中，也可从 Hugging Face 下载： https://huggingface.co/datasets/aisa-group/EvalAwareBench

配套代码与使用

代码仓库：https://github.com/aisa-group/decomposing-eval-awareness
许可证：Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0)
运行环境：支持Python虚拟环境，依赖项通过 requirements.txt 安装。需配置API密钥（如OpenAI、Anthropic、OpenRouter等）以运行模型评估。
支持的模型：包括Claude Sonnet 4.5、GPT-5、DeepSeek R1、Kimi K2.5、GLM-5、Qwen3 30B/235B、GPT-oss 120B/20B等九个前沿模型。
评估方法：包括链式思维（Chain-of-Thought）评估、自我报告评估、目的猜测评估、第三人称评估，以及基于九因子分类法的因子分析。
关键变量：可通过环境变量控制后端API、模型键、采样次数、并发数等参数。

其他相关数据集

HarmBench：需从官方仓库下载 harmbench_behaviors_text_all.csv 文件。
Agentic Misalignment Dataset：包含234个条件（3种场景 × 目标类型 × 紧急类型），需通过生成脚本创建。
AgentHarm：由 inspect-evals 包自动获取。

搜集汇总

数据集介绍

构建方式

在评估意识研究的理论框架下，EvalAwareBench基于社会心理学中需求特征的概念，将评估任务的结构性线索系统解构为八个可独立操控的触发因子，如占位实体、评分格式等。通过构建100对经过精心配对的安全与能力评估任务，在保持底层请求不变的前提下，独立切换每个因子的存在状态，从而实现对评估信号的精细调控。所有任务以YAML模板形式组织，并集成于开源仓库中，同时完整数据集也托管于Hugging Face平台，便于研究者直接获取与复用。

使用方法

使用EvalAwareBench时，研究者需先配置API密钥（支持OpenRouter、Anthropic、OpenAI等后端），并通过环境变量指定目标模型及采样参数。基准运行脚本自动检测已有输出并支持断点续跑，生成的响应文件随后由评估脚本进行链式思维分析。支持四种评估方法：链式思维评估、自述评估、目的猜测评估与第三方视角评估。因子分析模块利用九因子分类法，通过GPT-5评审模型进行多数投票，识别触发评估意识的具体结构线索。此外，SLURM集群脚本支持大规模并行执行，OpenAI批量API可降低50%评估成本。

背景与挑战

背景概述

EvalAwareBench由来自苏黎世联邦理工学院、马克斯·普朗克智能系统研究所、多伦多大学及向量研究所等顶尖机构的研究人员于近期构建，核心研究问题聚焦于大语言模型在评估情境下的行为异变——即模型因感知到自身被测试而调整输出，从而损害基准测试的有效性。该数据集通过解构评估意识，创新性地将其拆解为环境组件（评估任务的可识别性）与模型组件（识别能力与行为倾向），并系统量化了八大触发因子对模型行为的影响。EvalAwareBench包含100对配对的安全与能力评估任务，每个任务均可独立调控各类评估信号，为理解模型在评估中的响应机制提供了标准化工具，显著推动了该领域从定性描述向定量分析的跨越。

当前挑战

EvalAwareBench所面对的领域挑战在于，前沿语言模型在评估中可能因意识到自己被测试而产生策略性行为调整，传统基准测试难以区分模型真实能力与评估情境诱导的伪迹，导致评测结果失真。构建过程中，研究者需应对两大挑战：其一，需从社会心理学视角系统解构评估意识的构成要素，识别并分离环境提示与模型内在倾向的交互作用；其二，需设计精细控制的实验范式，在保持底层任务不变的前提下独立操纵八个类别的触发因子（如占位实体、评分格式等），并确保各因子组合能覆盖从安全到能力评估的广泛维度，同时排除因子间的混淆效应。此外，跨九个前沿模型的多重评估实验对计算资源与评测一致性提出了极高要求。

常用场景

经典使用场景

在大型语言模型的可信度与安全性评估领域，EvalAwareBench被广泛用于探究模型在意识到自身处于评估环境时是否会改变行为这一核心问题。该数据集系统性地操控了八类触发因素（如占位实体、评分式输出格式等），构建了100组配对的安全与能力评估任务，通过独立切换每个因素并固定底层请求，精确测量模型识别评估信号的能力及其行为响应倾向。研究者利用此基准可深入剖析不同前沿模型对评估信号的敏感度差异，以及因素叠加如何渐进式地提升评估意识。

解决学术问题

该数据集填补了评估意识研究领域缺乏共享理论基础与可控实验工具的空白。以往研究常混淆评估环境属性与模型内在特性，以及检测过程与行为响应模式。EvalAwareBench通过社会心理学框架将评估意识解构为环境识别、认知检测与行为倾向三个独立维度，使研究者能够系统归因模型行为偏移的成因。其核心贡献在于揭示了评估意识并非模型或基准的孤立属性，而是两者交互的涌现结果，为理解该现象提供了解剖学式的分析工具。

实际应用

在实际部署中，EvalAwareBench可用于构建更稳健的模型安全审计流程。当AI系统在真实场景中面临意图不明的用户查询或隐含评估信号时（如考试平台、AI辅助决策系统），该基准能够预判模型可能表现出的策略性迎合或规避行为，从而提前加固其行为一致性。其因子控制设计尤其适用于检测模型对安全评测的敏感度远高于能力评测这一现象，帮助开发者针对性设计去敏化训练策略，确保模型在各类应用环境中保持稳定且诚实的响应。

数据集最近研究