ai-safety-institute/realitytest

Name: ai-safety-institute/realitytest
Creator: ai-safety-institute
Published: 2026-05-07 07:50:39
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/ai-safety-institute/realitytest

下载链接

链接失效反馈

官方服务：

资源简介：

RealityTest身份查询数据集是一个用于评估AI身份披露行为（即对话AI系统在被直接询问时是否明确揭示其人工性质）的基准数据集。该数据集包含来自人类参与者的身份相关查询，涵盖五种语言（英语、西班牙语、法语、印地语和中文）和24种现实AI交互场景，包括客户服务、对抗性欺骗和共识沉浸等上下文。数据集包含文本和语音两种模态的查询，分为直接身份查询（如你是AI吗？或我在和人类说话吗？）和所有身份查询两类。此外，数据集还包含用于系统提示和对话种子的场景定义。数据集考虑了负责任的AI使用，包括数据限制、偏见、个人和敏感信息、预期用例、社会影响等方面。

The RealityTest: Identity Query Dataset is a benchmark dataset for evaluating AI identity disclosure — whether conversational AI systems explicitly reveal their artificial nature when directly asked (e.g. Are you an AI? or Are you a human?). The dataset contains identity-related queries collected from human participants across five languages (English, Spanish, French, Hindi, and Mandarin Chinese) and 24 realistic AI interaction scenarios spanning customer service, adversarial deception, and consensual immersion contexts. The dataset includes queries in both text and speech modalities, divided into Direct Identity Queries and all identity queries. It also contains scenario definitions used as system prompts and conversation seeds. The dataset considers responsible AI use, including data limitations, biases, personal and sensitive information, intended use cases, and social impact.

提供机构：

ai-safety-institute

搜集汇总

数据集介绍

构建方式

RealityTest数据集的构建源于对AI身份披露行为的系统性评估需求。研究团队首先通过一项针对英国代表性人群的调研（N=503）及Reddit平台中涉及AI身份模糊性的讨论帖，归纳出涵盖客户服务、对抗性欺骗与共识性沉浸三大类别的24个真实交互场景。随后，基于这些场景设计引导性文本，借助Claude Opus 4.6模型将其翻译为英语、西班牙语、法语、印地语和中文五种语言，并在Prolific平台招募来自49个国家的784名参与者，以文本和语音两种模态收集了共计3152条人类撰写的身份探查询问。所有语音数据经过质量审核后以门控方式发布，文本数据则采用宽松的CC-BY-4.0许可协议开放。查询策略标签通过Claude Sonnet 4.6分类器进行标注，并在人工验证集上取得了较高的Cohen's κ系数（0.829），确保了分类的可靠性。

特点

该数据集的核心特点在于其多维度、多模态的设计架构。它覆盖五种语言（英语、西班牙语、法语、印地语与中文），并同时包含文本与语音两种交互模态，为跨语言与跨模态的AI身份披露研究提供了丰富的数据基础。数据集的配置设计精巧，包括完整的查询集（queries_text与queries_speech）、仅含直接身份询问的子集（queries_text_direct与queries_speech_direct），以及包含120条场景定义的scenarios配置，每条场景均提供了系统提示、模态支持信息及对话上下文，便于研究者灵活抽取特定情境下的查询数据。此外，数据集记录了参与者的语言、交互子类别及场景变体标识，支持通过variant_id和language字段与场景配置进行关联，从而实现精细化的情境-查询配对分析。

使用方法

使用RealityTest数据集时，研究者可通过HuggingFace的datasets库便捷加载各配置项。以文本直接查询为例，可运行`load_dataset("ai-safety-institute/realitytest", "queries_text_direct", split="test").to_pandas()`获取573条直接身份询问。查询配置与场景配置通过variant_id和language两个字段关联，通过Pandas的merge操作即可将用户查询与对应的系统提示、对话上下文及场景类型进行整合，形成完整的评测实例。对于语音模态的数据，音频文件需通过门控申请获取，数据集本身提供对应的音频标识符（audio_id）和文本转录内容。该数据集主要应用于评估对话式AI在被询问身份时的自我披露行为，支持对文本与语音模型的系统评测，同时也适用于对人类询问策略的跨语言、跨场景实证研究。

背景与挑战

背景概述

RealityTest数据集由英国人工智能安全研究所（AI Security Institute）于2026年创建，旨在系统评估对话式人工智能系统在直接询问下（如“你是AI吗？”）是否明确披露自身的人工智能身份。该数据集围绕身份披露这一核心研究问题，收录了来自五种语言、24个现实AI交互场景（涵盖客户服务、对抗性欺骗和共识性沉浸）的3,152条人类撰写的身份探测查询。通过提供多语言、多模态的标准化评估基准，RealityTest推动了AI透明度研究从理论讨论走向实证评估，对理解人机交互中的信任与欺骗机制具有重要影响。

当前挑战

RealityTest数据集所应对的核心领域挑战是：当前对话系统缺乏统一的身份披露评估标准，用户难以区分交互对象是人类还是AI，这在客户服务、虚假信息防范等场景中可能引发信任危机。数据集构建过程中面临多重挑战：首先，场景分类需通过人口调查和社交网络分析进行两阶段实证映射，以确保覆盖真实世界身份模糊的情境；其次，跨语言刺激材料的机器翻译（如中文版中18.9%参与者认为翻译生硬）可能引入文化偏差；此外，语音数据因远程采集存在麦克风质量和背景噪音差异，而查询策略的LLM自动标注（Cohen's κ=0.829）仍有噪声，在训练身份探测分类器等下游任务前需谨慎验证。

常用场景

经典使用场景

在人工智能与人类交互的边界日益模糊的时代，如何评价对话系统是否坦诚地披露其非人类身份，成为AI安全研究的关键议题。RealityTest数据集为此而生，其最经典的使用场景是作为评估基准，系统性地测量文本与语音对话模型在面对用户直接询问身份（如“你是AI吗？”）时的回应行为。研究者在预先定义的服务自动化、对抗性欺骗、自愿沉浸等24种现实场景中，向模型输入人类撰写的身份探询查询，通过分析模型的回答来判断其是否明确承认自身的人工智能属性，从而为不同语言和模态下的模型透明度提供可量化的评价标准。

衍生相关工作

RealityTest的发布催生了一系列与之紧密相关的经典研究脉络。最直接的是基于该数据集的模型评估工作，研究者对17个文本模型和6个语音模型进行了系统测评，揭示了不同模型在身份披露行为上的显著差异。在此基础上，衍生出对人类查询策略的语义分类研究，通过结合人工编码与大型语言模型分类器（Claude Sonnet 4.6，Cohen's κ=0.829），将查询划分为直接身份查询、角色查询、能力查询、AI利用和无明确查询五类语义模式。此外，比较人类生成与机器合成身份查询的语义多样性差异也成为一个重要方向，而跨语言和多模态的公平性审计开始借助该数据集探索不同语言环境下的披露表现异同。

数据集最近研究