evaluation_logs

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/sandbagging-games/evaluation_logs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了用于评估的对话记录，这些记录是为了研究论文'对抗性游戏评估破坏'而制作的。对话记录以Inspect工具的.eval格式存储，包括了主要回合和试验回合的开始时红队提供给蓝队的对话记录，以及包括未参与游戏的Willow模型和Llama 3.3 70B Instruct在内的额外模型的评估记录。

创建时间：

2025-11-07

原始信息汇总

数据集概述

本数据集提供为论文《Adversarial Games for Evaluation Sabotage》生成的安全评估记录，采用Inspect .eval格式存储。

数据集详情

评估记录分类

evaluation_transcripts/handover_evals：包含主要回合开始时红队向蓝队提供的评估记录，展示未经篡改模型生物的性能表现。
evaluation_transcripts/trial_handover_evals：包含试验回合开始时红队向蓝队提供的评估记录。
evaluation_transcripts/additional_model_evaluations：包含额外评估记录，包括密码解锁模型生物、未参与游戏的Willow模型生物以及Llama 3.3 70B Instruct的评估结果。
experiments/auditing_agent：包含蓝队使用的自动化审计代理输出结果。

相关资源

论文链接：[TODO link to paper once out]
查看工具：https://github.com/AI-Safety-Institute/sabotage_games
格式说明：https://inspect.aisi.org.uk/

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，该数据集通过对抗性博弈框架系统生成。研究团队采用红蓝队对抗模式，在实验过程中收集模型评估记录。原始数据来源于对未篡改模型生物的性能测试，包括主要回合和试验回合的评估转录本。此外还整合了密码解锁模型、未参与博弈的Willow模型以及Llama 3.3 70B Instruct的补充评估数据，所有记录均遵循Inspect评估平台的标准化格式规范。

特点

该数据集囊括了完整的对抗性评估链条，既包含红队提交给蓝队的基准评估转录本，也收录了自动化审计代理的输出结果。其特色在于采用分层存储结构，分别保存主要回合、试验回合及补充模型的三类评估记录。所有数据均采用机器可读的.eval格式，确保了与AI安全研究所开发的分析工具链的兼容性。这种多维度、结构化的设计为研究模型在对抗环境中的行为模式提供了丰富素材。

使用方法

研究者可通过Inspect可视化平台直接加载.eval格式的转录本，实时观察模型在对抗场景中的决策轨迹。数据集支持对比分析不同阶段（试验回合与主要回合）的模型表现差异，同时便于考察密码保护机制对模型行为的影响。蓝队审计代理的输出数据可用于验证评估方法的有效性，为构建更稳健的AI安全评估框架提供实证基础。建议结合原始论文所述的博弈规则进行联合分析，以深入理解评估破坏行为的形成机制。

背景与挑战

背景概述

在人工智能安全评估领域，evaluation_logs数据集作为《对抗性游戏用于评估破坏》研究的核心产物，由英国人工智能安全研究所于2024年创建。该数据集聚焦于对抗性测试场景中模型行为的系统性记录，旨在通过红蓝队博弈框架揭示深度学习模型在安全关键场景中的潜在脆弱性。其创新性地采用标准化评估日志格式，为构建可复现的AI安全基准提供了重要数据支撑，推动了人机对抗评估方法论的发展。

当前挑战

该数据集致力于解决对抗性测试中模型行为可解释性这一核心难题，其构建过程面临多重挑战：评估日志的标准化记录需要平衡信息完整性与数据隐私保护；多轮对抗博弈产生的异构数据需建立统一标注规范；模型在密码解锁等特殊场景下的行为轨迹捕获存在技术瓶颈。这些挑战直接关系到AI安全评估范式的可靠性与可扩展性，对构建鲁棒的人工智能治理体系具有深远影响。

常用场景

经典使用场景

在人工智能安全评估领域，该数据集作为对抗性游戏实验的核心记录载体，典型应用于模型鲁棒性测试环节。研究者通过分析红蓝双方在模拟攻防场景中生成的评估日志，能够系统检验智能体在面临恶意干扰时的行为稳定性与策略完整性，为构建可信赖的AI系统提供关键实验依据。

衍生相关工作

基于该数据集衍生的经典研究包括自动化审计代理的开发与验证。多家机构利用这些日志训练出能主动检测评估异常的安全代理，进而催生了新一代动态监测框架。相关成果已延伸至模型水印、行为溯源等方向，形成了完整的技术迭代链条。

数据集最近研究