lm-eval-EleutherAI_tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748

Name: lm-eval-EleutherAI_tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748
Creator: EleutherAI
Published: 2025-11-05 12:50:05
License: 暂无描述

Hugging Face2025-11-05 更新2025-11-06 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/lm-eval-EleutherAI_tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个在评估模型EleutherAI/tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748时自动创建的数据集，包含0个配置，每个配置对应一个评估任务。数据集由9次运行的结果组成，每次运行都对应一个特定的分割，分割名称为运行的时戳。"train"分割始终指向最新的结果，同时还有一个额外的配置"results"用于存储所有运行的聚合结果。

提供机构：

EleutherAI

创建时间：

2025-11-05

原始信息汇总

数据集概述

基本信息

数据集名称: Evaluation run of EleutherAI/tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748
创建方式: 在模型评估运行期间自动创建
关联模型: EleutherAI/tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748

数据集结构

配置数量: 0个配置，每个配置对应一个评估任务
运行次数: 9次运行，每次运行作为特定分割存储在配置中
分割命名: 使用运行时间戳命名，"train"分割始终指向最新结果
额外配置: "results"配置存储所有运行的聚合结果

数据加载

python from datasets import load_dataset data = load_dataset( "EleutherAI/lm-eval-EleutherAI_tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748", name="EleutherAI__tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748__wmdp_bio_aisi_cloze_verified", split="latest" )

配置详情

配置名称: EleutherAI__tampered-deep-ignorance-random-init-fp-adversarial-20251104_051748__wmdp_bio_aisi_cloze_verified
数据文件:
- 分割: 2025_11_04T19_41_38.004387
- 路径: **/samples_wmdp_bio_aisi_cloze_verified_2025-11-04T19-41-38.004387.jsonl
- 分割: latest
- 路径: **/samples_wmdp_bio_aisi_cloze_verified_2025-11-04T19-41-38.004387.jsonl

搜集汇总

数据集介绍

构建方式

在语言模型评估领域，该数据集通过自动化流程构建，涵盖多个评估任务配置。其构建过程基于11次独立运行，每次运行生成具有时间戳标识的数据切分，并以最新结果作为训练集基准。评估结果以结构化JSON格式存储，确保数据可追溯性与版本管理的严谨性。

特点

该数据集专精于生物医学文本填空任务的评估，包含高信号与低信号两种分类场景。其核心特征体现在准确率指标的精细化呈现，如高信号场景下0.144的标准化准确率与低信号场景下1.0的完美表现，同时提供标准误差数据以支持统计可靠性分析。这种设计使得模型在不同信息密度场景下的性能差异得以清晰展现。

使用方法

研究人员可通过HuggingFace数据集库直接加载该评估结果，使用指定配置名称与切分参数即可获取最新评估数据。数据接口支持Python环境下的灵活调用，允许用户提取特定任务的标准化准确率及其误差范围。这种标准化访问方式为模型性能比较与基准测试提供了便捷的技术支持。

背景与挑战

背景概述

在人工智能安全研究领域，模型鲁棒性与对抗性防御机制始终是核心议题。该数据集由EleutherAI研究团队于2025年创建，专为评估经过篡改处理的深度无知模型在随机初始化和浮点对抗攻击下的表现而设计。通过生物医学领域的完形填空任务（wmdp_bio_cloze）及其信号分类变体，该数据集旨在揭示语言模型在面临对抗性干扰时的知识保留能力与决策稳定性，为构建更可靠的AI安全评估体系提供关键数据支撑。

当前挑战

该数据集需应对生物医学领域专业术语的语义完整性挑战，模型在低信号场景下虽达完美准确率，但高信号场景中准确率骤降至14.37%，凸显对抗样本对模型认知的破坏性。构建过程中面临时序数据整合的复杂性，需协调11次独立运行的评估结果，并确保多配置任务（如信号分类的高/低变体）在动态更新机制下保持数据一致性，这对评估框架的扩展性与可复现性提出更高要求。

常用场景

经典使用场景

在语言模型评估领域，该数据集作为对抗性测试基准，专门用于检测模型在生物医学文本补全任务中的鲁棒性。通过wmdp_bio_cloze_signal_categorized等任务配置，系统评估模型在高噪声与低噪声文本场景下的表现差异，为语言理解能力的量化比较提供标准化框架。

实际应用

在生物信息安全领域，该数据集可应用于检测语言模型对敏感生物知识的记忆与泄露风险。通过分析模型在对抗性样本上的响应模式，帮助开发防护机制，为生物技术企业、科研机构构建合规的内容生成系统提供关键验证工具。

衍生相关工作

基于该数据集的评估范式，催生了多项关于语言模型安全性的经典研究。例如在模型篡改检测、对抗训练优化等方向衍生出系列工作，特别是针对生物医学领域特化模型的鲁棒性测试框架，为后续的红队测试与安全对齐研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集