five

lm-eval-EleutherAI_deep-ignorance-unfiltered

收藏
Hugging Face2025-11-05 更新2025-11-06 收录
下载链接:
https://huggingface.co/datasets/EleutherAI/lm-eval-EleutherAI_deep-ignorance-unfiltered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估 EleutherAI/deep-ignorance-unfiltered 模型时自动创建的。数据集由一个配置组成,每个配置对应一个评估任务。数据集由4次运行创建,每次运行在配置中都有一个特定的分割,分割名称使用运行的 timestamp。'train' 分割始终指向最新的结果。还有一个额外的配置 'results' 存储所有运行的聚合结果。
提供机构:
EleutherAI
创建时间:
2025-11-05
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Evaluation run of EleutherAI/deep-ignorance-unfiltered
  • 创建方式: 在模型EleutherAI/deep-ignorance-unfiltered评估运行期间自动创建
  • 配置数量: 1个配置,每个配置对应一个评估任务
  • 运行次数: 4次运行,每次运行在各配置中作为特定分割

数据集结构

配置信息

  • 配置名称: EleutherAI__deep-ignorance-unfiltered__wmdp_bio_cloze_signal_categorized_high_signal

  • 数据文件:

    • 分割: 2025_11_04T21_06_17.161347
    • 路径: **/samples_wmdp_bio_cloze_signal_categorized_high_signal_2025-11-04T21-06-17.161347.jsonl
    • 分割: latest
    • 路径: **/samples_wmdp_bio_cloze_signal_categorized_high_signal_2025-11-04T21-06-17.161347.jsonl
  • 配置名称: EleutherAI__deep-ignorance-unfiltered__wmdp_bio_cloze_signal_categorized_low_signal

  • 数据文件:

    • 分割: 2025_11_04T21_06_17.161347
    • 路径: **/samples_wmdp_bio_cloze_signal_categorized_low_signal_2025-11-04T21-06-17.161347.jsonl
    • 分割: latest
    • 路径: **/samples_wmdp_bio_cloze_signal_categorized_low_signal_2025-11-04T21-06-17.161347.jsonl

最新评估结果

运行时间

2025-11-04T21-06-17.161347

性能指标

wmdp_bio_cloze_signal_categorized

  • 标准化准确率: 0.3615
  • 标准化准确率标准误差: 0.0137
  • 互信息准确率: 0.4480
  • 互信息准确率标准误差: 0.0151

wmdp_bio_cloze_signal_categorized_high_signal

  • 标准化准确率: 0.2745
  • 标准化准确率标准误差: 0.0153
  • 互信息准确率: 0.4182
  • 互信息准确率标准误差: 0.0169

wmdp_bio_cloze_signal_categorized_low_signal

  • 标准化准确率: 0.7000
  • 标准化准确率标准误差: 0.0310
  • 互信息准确率: 0.5636
  • 互信息准确率标准误差: 0.0335

数据加载方式

python from datasets import load_dataset data = load_dataset( "EleutherAI/lm-eval-EleutherAI_deep-ignorance-unfiltered", name="EleutherAI__deep-ignorance-unfiltered__wmdp_bio_cloze_signal_categorized_high_signal", split="latest" )

搜集汇总
数据集介绍
main_image_url
构建方式
在语言模型评估领域,该数据集通过自动化流程构建而成,源自对EleutherAI/deep-ignorance-unfiltered模型的四次独立评估运行。每个运行对应特定任务配置,并以时间戳命名形成独立数据切分,最新结果始终映射至“train”切分。此外,专门设立“results”配置用于聚合所有运行的评估指标,确保数据结构的系统性与可追溯性。
特点
该数据集以生物医学领域知识为背景,聚焦于信号分类任务的评估结果。其核心特征体现在多维度性能指标上,包括标准化准确率与互信息准确率及其标准误差。例如,在低信号类别中模型表现出70%的标准化准确率,而高信号类别则呈现27.45%的较低准确率,这种差异分布为模型能力边界分析提供了重要依据。
使用方法
研究人员可通过HuggingFace数据集库直接加载该评估数据,指定具体配置名称与切分参数即可获取对应结果。以加载最新高信号分类评估为例,使用load_dataset方法调用相应配置名与“latest”切分,便能提取包含准确率、标准误差等关键指标的结构化数据,为模型性能比较与误差分析提供标准化接口。
背景与挑战
背景概述
在人工智能语言模型评估领域,EleutherAI研究机构于2025年创建了deep-ignorance-unfiltered数据集,旨在系统评估模型在生物医学文本完形填空任务中的表现。该数据集通过多轮测试构建,聚焦于模型对生物安全相关知识的理解能力,其核心研究问题在于探索语言模型在专业领域中的知识边界与推理局限。作为语言模型评估生态的重要组成部分,该数据集为量化模型在生物安全敏感话题上的认知能力提供了基准工具,推动了可解释人工智能研究的发展。
当前挑战
该数据集主要应对生物医学领域文本理解的评估挑战,具体体现在模型需准确识别高信号与低信号语境下的专业术语关联性。构建过程中面临多重困难:首先,生物安全领域文本需要平衡专业知识密度与伦理敏感性;其次,动态评估框架要求持续更新测试样本以反映前沿知识;最后,多维度指标体系的建立需要解决标准化准确率与互信息评估之间的协调问题。这些挑战共同构成了该数据集在专业领域评估中的核心复杂性。
常用场景
经典使用场景
在语言模型评估领域,该数据集作为EleutherAI开发的深度无知模型的评测产物,其经典应用场景聚焦于生物医学文本理解任务。通过对wmdp_bio_cloze信号分类任务的多维度评估,该数据集能够系统衡量语言模型在生物医学领域填空任务中的表现差异,特别是针对高信号与低信号文本的识别能力。这种评估范式为研究者提供了标准化的测试基准,有助于深入探索语言模型在专业领域的知识边界与认知局限。
解决学术问题
该数据集有效解决了语言模型在专业领域知识评估中的标准化难题。通过构建具有信号强度分类的生物医学完形填空任务,它能够量化模型在不同信息密度文本中的表现差异。这种设计使得研究者能够精确分析模型对专业知识的掌握程度,特别是对生物医学领域术语和概念的理解深度。数据集提供的标准化评估指标为比较不同模型的领域适应能力提供了科学依据,推动了语言模型专业能力评估方法学的发展。
衍生相关工作
基于该数据集的评估框架,已衍生出多项关于语言模型专业能力分析的重要研究。这些工作主要围绕生物医学领域知识表示学习展开,深入探索模型在专业术语理解和概念关联方面的表现。相关研究进一步扩展了信号分类评估方法的应用范围,推动了领域特定语言模型评估标准的发展。这些衍生工作不仅完善了专业领域语言模型的评测体系,也为构建更可靠的领域自适应模型提供了理论指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作