limitation-generation-dataset-bagels

Hugging Face2025-09-06 更新2025-09-07 收录

下载链接：

https://huggingface.co/datasets/IbrahimAlAzhar/limitation-generation-dataset-bagels

下载链接

链接失效反馈

官方服务：

资源简介：

Limitation_dataset_BAGELS是一个结构化的学术文章JSON文件语料库，包含ACL 2023、ACL 2024和NeurIPS 2021-2022会议的论文。该数据集包含论文标题、摘要和分节的全文内容，可用于局限性检测、文本生成、检索和QA任务，以及分析作者声明的局限性和审稿人反馈之间的一致性。

创建时间：

2025-08-30

原始信息汇总

Limitation_dataset_BAGELS 数据集概述

数据集基本信息

名称：Limitation_dataset_BAGELS
许可证：other
任务类别：text-generation
语言：en
标签：limitations, peer-review
数据规模：10K<n<100K

数据来源与构成

数据集包含来自以下学术会议的论文：

ACL 2023（3,013篇论文）
ACL 2024（2,727篇论文）
NeurIPS 2021–2022（7,069篇论文）

数据分布

子集	论文数量	有标注数据	无标注数据	标注定义
ACL 2023	3,013	2,558	455	作者提及的局限性（Limitation）
ACL 2024	2,727	2,440	287	作者提及的局限性（Limitation）
NeurIPS 2021–2022	7,069	2,830	4,239	作者提及的局限性（Limitations Refined）和OpenReview衍生的审稿人评论（Reviewer Comment）
总计	12,809	7,828	4,981

数据结构

ACL 2023 & ACL 2024

File Number（字符串）
Title（字符串）
Limitation（字符串）- 作者提及的局限性（作为标注）
abstractText（字符串）
分段键（字符串）- 例如："1 Introduction"、"2 Related Work"、"3 Methodology"、"Results and Experiments"、"Data"、"Other sections"

NeurIPS 2021–2022

File Number（字符串）
Title（字符串）
Limitation（字符串）- 作者提及的局限性
Limitation Refined（字符串）- 去除其他部分噪声句子后的作者提及局限性（作为标注）
Reviewer Comment（字符串）- 按审稿人格式化的审稿人局限性摘录串联（作为标注）
Reviewer Summary（字符串）- 按审稿人格式化的审稿人摘要串联
abstractText（字符串）
分段键（字符串）- 例如："1 Introduction"、"2 Related Work"、"3 Methodology"、"Results and Experiments"、"Data"、"Other sections"
Author mentioned Limitation（字符串）- 提取的跨度

数据处理流程

步骤1：标注提取流程

使用ScienceParse解析论文以恢复结构化部分（标题、摘要和所有标题/正文）
使用Selenium爬虫从OpenReview收集同行评审内容
局限性提取：首先查找标题包含"Limitation"或"Limitations"的专用部分；若无，则扫描论文（除摘要、引言和相关工作部分外）查找包含"limitation"/"limitations"的第一个句子并提取文本

步骤2：标注重新提取流程（GPT-4o mini）

标准化局限性信号：将作者提及的Limitation文本和Reviewer Comment字段发送到GPT-4o mini，返回逐字局限性跨度
主合并步骤：去重/合并近重复项；保留来源（作者、审稿人或两者）
输出：limitations_author_extracted、limitations_reviewer_extracted、limitations_consolidated

预期用途

文本生成：生成局限性（或其他部分）以评估模型生成的文本与标注
二元分类：检测论文是否包含明确的局限性（作者/审稿人）
检索与问答：根据查询（论文、部分、主题）检索局限性段落
作者-审稿人对齐：比较作者陈述的局限性与审稿人提出的缺点

建议评估指标

PointWise Evaluation方法
ROUGE 1,2,L、BERTScore、BLEU、余弦相似度、Jaccard相似度
LLM作为评判者（连贯性、忠实度、可读性、语法、整体性能）
F1 / macro-F1（分类）
ROUGE / BERTScore（生成）
nDCG / MRR（检索）

数据整理说明

PDF被解析和分段；标题逐字保留
作者侧局限性跨度优先；审稿人侧文本聚合多审稿人字段
启发式方法避免误报

引用信息

相关论文：Azher, Ibrahim Al; Mokarrama, Miftahul Jannat; Guo, Zhishuai; Choudhury, Sagnik Ray; Alhoori, Hamed (2025). BAGELS: Benchmarking the Automated Generation and Extraction of Limitations from Scholarly Text. arXiv preprint arXiv:2505.18207.

代码地址：https://github.com/IbrahimAlAzhar/BAGELS_Limitation_Gen

引用格式： @article{azher2025bagels, title={BAGELS: Benchmarking the Automated Generation and Extraction of Limitations from Scholarly Text}, author={Azher, Ibrahim Al and Mokarrama, Miftahul Jannat and Guo, Zhishuai and Choudhury, Sagnik Ray and Alhoori, Hamed}, journal={arXiv preprint arXiv:2505.18207}, year={2025} }

搜集汇总

数据集介绍

构建方式

在学术文本挖掘领域，该数据集通过系统化的流程构建而成。其原始数据源自ACL 2023、ACL 2024及NeurIPS 2021–2022会议的论文全文，采用ScienceParse工具进行结构化解析，提取标题、摘要及各章节内容。针对局限性文本的标注，首先依据章节标题中含有限制性词汇的专用部分进行直接提取；若无专用章节，则采用启发式规则扫描全文，识别包含特定关键词的句子并划定边界以避免无关内容。对于NeurIPS子集，还整合了OpenReview平台的同行评审意见，通过自动化爬虫收集审稿人评论，形成多源标注体系。

特点

该数据集的核心特征体现在其多源性与结构化标注策略上。它不仅包含作者自我声明的局限性文本，还融入了同行评审过程中审稿人提出的批评意见，从而构建了双向视角的局限性描述。数据以JSON格式组织，每个样本均包含完整的论文元数据、分段文本及精确标注的局限性片段。特别值得注意的是，NeurIPS子集通过GPT-4o mini模型对原始标注进行去噪和重构，生成经过提炼的局限性文本及统一整合的评论摘要，显著提升了标注质量与一致性。

使用方法

该数据集适用于多种自然语言处理任务，尤其服务于学术文本分析与生成研究。用户可基于其标注信息训练二分类模型，以检测论文是否包含明确的局限性陈述；也可用于生成任务，例如以论文其他部分为输入自动产生局限性章节，并通过对比真实标注评估生成质量。在检索与问答场景中，该数据集支持以查询语句匹配相关局限性段落，或分析作者与审稿人观点的一致性。评估时建议采用点对点比较指标，亦可结合ROUGE、BERTScore等自动度量方法综合评判模型性能。

背景与挑战

背景概述

在学术文献分析领域，系统性识别研究局限性一直是提升科研透明度的关键课题。limitation-generation-dataset-bagels数据集由Ibrahim Al Azher等学者于2025年构建，整合了ACL 2023-2024和NeurIPS 2021-2022会议论文的12,809篇文献，通过结构化提取作者自述局限性与审稿人意见，为学术文本挖掘提供了重要基准。该数据集支撑局限性检测、生成与对齐分析等任务，推动了学术写作辅助工具的发展，其相关研究成果已发表于EMNLP 2025会议。

当前挑战

该数据集核心挑战在于解决学术局限性文本的异构性识别问题：作者表述方式多样且常隐含于非专用章节，需结合启发式规则与GPT-4o mini模型进行精准跨度提取；构建过程中面临多源数据融合难题，包括PDF解析的章节结构一致性处理、OpenReview审稿意见的噪声过滤，以及作者与审稿人观点对齐时的去重与溯源保障，这些技术挑战共同构成了学术局限性分析领域的典型瓶颈。

常用场景

经典使用场景

在学术文本挖掘领域，该数据集为自然语言处理任务提供了结构化标注语料，特别适用于自动识别科研论文中的局限性陈述段落。研究者可基于全文分段结构训练模型精准定位限制性描述，同时利用作者自述与审稿人意见的双重标注验证模型鲁棒性。这种设计使得该数据集成为评估文本生成模型在学术场景下语义理解能力的重要基准。

衍生相关工作

基于该数据集衍生的经典工作包括BAGELS基准框架，该系统实现了局限性文本的自动生成与提取评估。相关研究进一步开发了基于GPT-4o的智能化提取管道，建立了作者与审稿人观点对齐的分析模型。这些工作推动了学术文本挖掘领域对自我反思性内容处理的技术发展，为后续研究提供了可复现的实验基准和评估方法论。

数据集最近研究