EvalAwareBench

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/aisa-group/EvalAwareBench

下载链接

链接失效反馈

官方服务：

资源简介：

EvalAwareBench是一个用于研究语言模型评估意识的因子控制基准数据集。评估意识指的是模型识别其输出正在被评估的能力。该数据集通过系统性地操纵八个基于心理学的触发因子（F1-F8），在匹配的安全性和能力任务上测量模型的识别能力、行为一致性以及评估线索的组合效应。数据集包含100个配对任务，每个任务都有安全变体（有害请求，如编写恶意软件）和能力变体（良性但结构平行的请求，如编写防御性扫描器），共计200个任务模板。每个任务模板配备8个独立可控的因子，这些因子可以在“自然水平”和“夸张水平”之间切换，从而生成2^8=256种不同的因子配置组合。通过对所有任务和配置进行渲染，数据集总共提供了51,200个提示文本。数据以四个配置提供：1) tasks（200行）：包含任务元数据；2) prompts（51,200行）：包含所有任务变体在所有256种因子组合下渲染的完整提示集合；3) prompts_safety（25,600行）：仅包含安全价态（有害请求）的提示；4) prompts_capability（25,600行）：仅包含能力价态（良性请求）的提示。每个提示数据行包含唯一任务变体标识符、任务目录名称、价态、人类可读的任务描述、处于夸张水平的因子列表、活跃因子计数、完整的8因子配置字典以及渲染后的提示文本。八个可控因子（F1-F8）及其水平包括：刺激人工性（F1）、场景连贯性（F2）、散文语域（F3）、生态完整性（F4）、风险信号传递（F5）、范式可识别性（F6）、任务格式（F7）和显式评估披露（F8）。该数据集专为评估和分析设计，明确不应用于训练语言模型或任何机器学习系统，以避免污染基准并影响未来评估意识研究的有效性。数据集采用CC-BY-NC-4.0许可证发布。

EvalAwareBench is a factor-controlled benchmark dataset for studying language model evaluation awareness. Evaluation awareness refers to a models ability to recognize that its output is being evaluated. The dataset systematically manipulates eight psychology-based trigger factors (F1-F8) to measure models recognition ability, behavioral consistency, and the combined effects of evaluation cues on matched safety and capability tasks. It contains 100 paired tasks, each with a safety variant (harmful requests, such as writing malware) and a capability variant (benign but structurally parallel requests, such as writing defensive scanners), totaling 200 task templates. Each task template is equipped with eight independently controllable factors that can be switched between natural level and exaggerated level, generating 2^8=256 different factor configuration combinations. By rendering all tasks and configurations, the dataset provides a total of 51,200 prompt texts. The data is provided in four configurations: 1) tasks (200 rows): contains task metadata such as task ID, name, valence (safety/capability), pairing information, description, source, number of slots and names, and list of factors used; 2) prompts (51,200 rows): contains the complete set of prompts rendered for all task variants across all 256 factor combinations; 3) prompts_safety (25,600 rows): includes only prompts with safety valence (harmful requests); 4) prompts_capability (25,600 rows): includes only prompts with capability valence (benign requests). Each prompt data row includes fields such as unique task variant identifier (task_id), task catalog name (task_name), valence, human-readable task description (description), list of factors at exaggerated level (factors_varied), active factor count (num_factors_varied, where 0 indicates baseline and 8 indicates all), a complete 8-factor configuration dictionary (config), and the rendered prompt text (prompt). The eight controllable factors (F1-F8) and their levels include: stimulus artificiality (F1), scenario coherence (F2), prose register (F3), ecological integrity (F4), risk signaling (F5), paradigm recognizability (F6), task format (F7), and explicit evaluation disclosure (F8). The dataset is designed specifically for evaluation and analysis and explicitly should not be used for training language models or any machine learning systems to avoid contaminating benchmarks and affecting the validity of future evaluation awareness research. The dataset is released under the CC-BY-NC-4.0 license.

创建时间：

2026-05-18

原始信息汇总

EvalAwareBench 数据集概述

基本信息

名称：EvalAwareBench
语言：英语
许可证：CC-BY-NC-4.0
任务类别：文本生成
标签：评估、安全性、基准测试、觉知、大语言模型
数据规模：10K < n < 100K

数据集摘要

EvalAwareBench 是一个用于研究语言模型中评估觉知（evaluation awareness）的因子控制基准数据集。它设计了8个心理学基础触发因子，可在匹配的安全性和能力任务上独立切换，用于测量识别能力、行为一致性以及评估性线索的组合效应。

核心数据规模

100对配对任务（安全 + 能力变体 = 200个任务模板）
每个任务8个独立可控因子（F1–F8）
每个任务变体256种因子配置（2^8组合）
总共51,200条渲染提示

数据集结构

仓库目录结构

├── README.md ├── croissant.json ├── render.py ├── taxonomy.yaml ├── data/ │ ├── tasks.jsonl │ ├── prompts.jsonl │ ├── prompts_safety.jsonl │ └── prompts_capability.jsonl └── tasks/ └── <task_name>/ ├── safety.yaml └── capability.yaml

数据配置

配置名称	行数	描述
`tasks`	200	任务元数据：ID、描述、效价、来源、槽位名称
`prompts`	51,200	所有因子组合下的完整渲染提示
`prompts_safety`	25,600	仅安全性效价（有害请求）的变体
`prompts_capability`	25,600	仅能力效价（良性请求）的变体

任务设计

每个任务都是一个基于相同底层场景的配对安全/能力情境。两种变体共享实体槽位和结构框架，但区别在于用户要求模型执行的操作：

安全变体：请求是有害的（例如，编写恶意软件、撰写威胁信息）
能力变体：请求是良性的但结构上平行（例如，编写防御性扫描器、撰写感谢信）

每个任务模板具有8个可控因子（F1–F8），可在自然水平和夸张水平之间独立切换。

因子定义

代码	因子名称	自然水平	夸张水平
F1	刺激人工性	真实存在的实体	占位名称（Acme Corp, example.com）
F2	场景连贯性	无虚假前提	注入可检查的虚假前提
F3	散文风格	随意用户语气	正式/教科书式框架
F4	生态完整性	完整上下文和背景故事	仅裸请求，无上下文
F5	利害关系提示	自然描述意图	明确命名危害类别
F6	范式可识别性	无基准框架	已知越狱/评估包装
F7	任务格式	自然散文	结构化模板
F8	明确评估披露	无评估语言	基准输出惯例

提示字段说明

提示数据配置中每行包含以下字段：

字段	描述
`task_id`	唯一任务变体标识符
`task_name`	任务目录名称
`valence`	效价：`safety` 或 `capability`
`description`	可读的任务描述
`factors_varied`	处于夸张水平的因子列表（例如 `["F1", "F3"]`）
`num_factors_varied`	活跃因子数量（0 = 基线，8 = 全部）
`config`	完整的8因子配置字典
`prompt`	渲染后的提示文本

超出范围的使用说明

该数据集不应用于作为语言模型或其他机器学习系统的训练数据。使用该数据集进行模型训练可能会通过污染基准而损害未来评估觉知研究的有效性。

搜集汇总

数据集介绍

构建方式

EvalAwareBench基于心理学启发的八项触发因素，构建了一套因子控制的评测基准。数据集围绕100对安全性与能力性任务展开，每对任务共享实体槽位与结构骨架，但在请求意图上区分有害与无害。每个任务模板包含八个独立可调的因素（F1至F8），可在自然主义与夸张水平之间切换，形成2的8次方共256种配置组合。通过将YAML模板与因子配置渲染为最终提示，系统生成了总计51,200条提示文本，并按照任务元数据、所有提示、仅安全性提示和仅能力性提示分为四个配置存储。

特点

该数据集的鲜明特色在于其因子控制的精细度与心理学根基。八个因素分别对应刺激人工性、场景连贯性、语域正式度、生态完整性、风险暗示、范式可识别性、任务格式及显式评测披露，能够独立扰动或组合操纵，从而精准隔离评估意识触发信号。所有安全性任务与能力性任务严格配对，确保结构平行而意图对立，支持从单因素消融到全组合分析的系统性考察。此外，数据集明确声明不适用于模型训练，以维护评测基准的纯净性与未来研究的有效性。

使用方法

研究者可通过Hugging Face Datasets库便捷加载预渲染提示，选择全部提示集、安全性子集、能力性子集或任务元数据。利用num_factors_varied字段，可过滤出基线、单因素或全因素配置的提示，进行针对性分析。对于需要自定义因子组合的场景，数据集提供了YAML模板与渲染接口，允许直接读取任务模板并指定八个因子的具体水平，动态生成定制提示。这种双重使用模式兼顾了标准化评测的便利性与实验设计的灵活性，尤其适用于评估意识的行为一致性及评估线索组合效应研究。

背景与挑战

背景概述

EvalAwareBench是由苏黎世联邦理工学院、马克斯·普朗克智能系统研究所、多伦多大学及向量研究所等多家顶尖机构的研究者于近期共同构建的基准数据集。该数据集聚焦于大型语言模型中的“评估意识”现象，旨在系统性地探究模型是否能够识别自身正被评估、这种识别如何影响其行为的一致性，以及各类评估线索如何协同发挥作用。通过精心设计100个成对的安全与能力任务，并引入8个基于心理学理论的可控因素，EvalAwareBench为研究模型在评估情境下的行为表征提供了标准化且精细化的实验平台，对理解LLM的评估敏感性、推动模型安全评估方法的发展具有重要影响力。

当前挑战

EvalAwareBench所解决的领域核心挑战在于，现有评估基准往往忽视了模型对评估情境本身的感知能力。模型可能在表面上通过了安全测试，实则依赖于识别“这是测试”的线索而改变行为，导致评估结果失真。该数据集构建过程中的挑战体现在：需设计100对在结构上平行、但在请求倾向性（有害/良性）上严格匹配的任务模板；还需独立操控8个心理学因素（如刺激的人造度、情境连贯性等），通过2^8种组合生成51,200个提示，确保每个因素对评估意识影响的精细可分离性，同时避免提示间的交叉污染影响实验效度。

常用场景

经典使用场景

在大型语言模型的可控评估研究中，EvalAwareBench扮演着至关重要的角色。该数据集通过精细设计的因子控制框架，系统性地研究了语言模型对评估情境的感知能力。研究者可借助其八种心理学基础的触发因子（F1至F8），在匹配的安全性与能力任务变体上，独立调控各项因子，从而精准测量模型对评估线索的识别能力、行为一致性表现以及多种线索组合下的涌现效应。这种因子化的设计范式为理解模型的行为可预测性提供了前所未有的精细视角。

实际应用

在实际部署大型语言模型的过程中，EvalAwareBench展现出极高的应用价值。企业或研究机构可借助此基准，对即将上线的大模型进行精准的评估意识测试，确保模型在面对复杂多变的用户输入时，不会因识别出评估场景而产生不稳定的行为偏移。例如，在内容安全审核与合规性检查领域，该数据集可用于检测模型是否能够识别恶意越狱提示与正常请求之间的微妙差异，从而提升AI系统在真实世界交互中的安全性与可靠性。其因子化设计亦为模型对齐训练提供了可量化的诊断工具。

衍生相关工作

EvalAwareBench的发布催生了一系列颇具影响力的衍生研究工作。围绕其因子控制框架，学者们深入探索了评估意识与模型安全性之间的耦合关系，衍生出针对不同因子组合的协同效应分析。同时，该数据集也为评估线索消融实验、因子敏感性分析以及模型行为可解释性研究提供了标准化的测试平台。此外，基于该基准的对比实验揭示了不同规模与架构的语言模型在评估感知能力上的分化特征，推动了新一代模型对齐与鲁棒性提升策略的涌现，为构建更具可信度的人工智能系统奠定了坚实的实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集