AbsenceBench

Hugging Face2025-06-16 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/harveyfin/AbsenceBench

下载链接

链接失效反馈

官方服务：

资源简介：

AbsenceBench数据集涵盖了三个不同的领域：诗歌（真实场景）、数字序列（合成数据）和GitHub拉取请求（真实场景）。共有4302个实例，平均上下文长度为5K个token。每个领域包含以下特征：原始上下文、修改后的上下文、省略的上下文列表、省略的索引列表和关于数据生成信息的元数据字典。目前仅提供验证分割。

创建时间：

2025-06-13

原始信息汇总

AbsenceBench数据集概述

基本信息

许可证: CC-BY-SA-4.0
任务类别: 文本生成
语言: 英语
数据规模: 1K<n<10K

数据集配置

github_prs
- 数据文件: validation
- 特征:
  - id: int64
  - original_context: string
  - modified_context: string
  - omitted_context: List[string]
  - omitted_index: List[int64]
  - metadata: 包含additions、author、deletions等字段的结构体
- 统计信息:
  - 样本数: 887
  - 文件大小: 9,578,209字节
  - 下载大小: 3,431,644字节
numerical
- 数据文件: validation
- 特征:
  - id: int64
  - original_context: string
  - modified_context: string
  - omitted_context: List[string]
  - omitted_index: List[int64]
  - metadata: 包含max_num、min_num、n_numbers等字段的结构体
- 统计信息:
  - 样本数: 1,200
  - 文件大小: 7,175,806字节
  - 下载大小: 4,970,832字节
poetry
- 数据文件: validation
- 特征:
  - id: int64
  - original_context: string
  - modified_context: string
  - omitted_context: List[string]
  - omitted_index: List[int64]
  - metadata: 包含n_omitted、omission_probability、poem_length等字段的结构体
- 统计信息:
  - 样本数: 1,191
  - 文件大小: 44,217,657字节
  - 下载大小: 29,473,174字节

数据集详情

覆盖领域:
- 诗歌（现实数据）
- 数字序列（合成数据）
- GitHub拉取请求（现实数据）
总实例数: 4,302
平均上下文长度: 5K tokens

数据来源

诗歌领域数据来源于Gutenberg Poetry Corpus

引用信息

Bibtex @misc{fu2025absencebenchlanguagemodelscant, title={AbsenceBench: Language Models Cant Tell Whats Missing}, author={Harvey Yiyun Fu and Aryan Shrivastava and Jared Moore and Peter West and Chenhao Tan and Ari Holtzman}, year={2025}, eprint={2506.11440}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.11440}, }

搜集汇总

数据集介绍

构建方式

AbsenceBench数据集通过精心设计的流程构建，涵盖诗歌、数值序列和GitHub拉取请求三大领域。诗歌数据源自古腾堡诗歌语料库，经过筛选和处理以保留文学价值；数值序列采用合成方法生成，确保逻辑严密性；GitHub数据则直接采集真实项目提交记录，反映实际开发场景。每个实例均包含原始文本、修改后文本及被省略内容的位置标记，构建过程注重领域代表性和数据多样性。

使用方法

研究者可通过加载特定领域配置（github_prs/numerical/poetry）获取验证集数据，利用original_context与modified_context的对比分析模型表现。omitted_index字段支持精确评估模型定位缺失内容的能力，而丰富的metadata则便于进行细粒度分析。数据集兼容HuggingFace生态，可直接通过标准接口加载，配套的GitHub仓库提供完整的数据处理脚本和实验代码参考。

背景与挑战

背景概述

AbsenceBench是由Harvey Yiyun Fu等研究人员于2025年提出的创新型文本生成评估数据集，旨在探究语言模型在识别文本中缺失内容方面的能力局限性。该数据集由华盛顿大学等机构联合开发，涵盖诗歌、数值序列和GitHub拉取请求三大领域，共包含4302个实例，平均上下文长度达5K词元。其核心研究问题聚焦于语言模型对文本中隐含或省略信息的敏感度，这一研究对提升模型的情境理解能力和推理机制具有重要启示意义。数据集构建基于古腾堡诗歌语料库等真实文本资源，通过系统性省略关键信息的方式创建评估样本，为自然语言处理领域的模型诊断提供了新的基准工具。

当前挑战

AbsenceBench针对语言模型在识别文本缺失信息这一新兴任务中的表现提出了双重挑战。从领域问题层面，现有模型难以有效捕捉诗歌中的隐喻省略、数值序列的隐含规律以及代码变更的潜在影响，这暴露了模型深层语义推理的不足。在构建过程中，研究团队面临真实文本标注一致性控制的难题，特别是GitHub拉取请求需要精确识别代码变更的语义边界；诗歌领域则需平衡文学性与评估目标，确保省略内容既自然又可验证；数值序列的生成需设计严谨的概率框架以模拟多样化缺失模式。这些挑战推动了文本生成评估方法学的精细化发展。

常用场景

经典使用场景

在自然语言处理领域，AbsenceBench数据集为评估语言模型在文本缺失检测任务上的性能提供了标准化测试平台。该数据集通过诗歌、数值序列和GitHub拉取请求三个不同领域的文本，构建了包含原始上下文、修改上下文和缺失上下文的对比样本，研究者可据此系统分析模型识别文本中缺失信息的能力。

解决学术问题

该数据集有效解决了语言模型在文本连贯性理解方面的评估难题。通过精确标注的缺失内容及其位置信息，研究者能够定量分析模型对文本完整性的感知能力，这对提升模型的上下文理解、逻辑推理等核心能力具有重要价值，填补了现有评测体系在缺失检测任务上的空白。

实际应用

在代码审查和文档校验等实际场景中，AbsenceBench的评估框架可直接迁移应用。基于GitHub拉取请求构建的子集特别适用于开发代码变更审查工具，而诗歌子集则可用于检验文学文本编辑系统的可靠性，为构建智能文本校对系统提供了基准数据支持。

数据集最近研究