OARelatedWork

Name: OARelatedWork
Creator: 布尔诺理工大学
Published: 2024-05-03 16:49:22
License: 暂无描述

arXiv2024-05-03 更新2024-06-21 收录

下载链接：

https://github.com/KNOT-FIT-BUT/OAPapers

下载链接

链接失效反馈

官方服务：

资源简介：

OARelatedWork是首个大规模多文档摘要数据集，专注于相关工作生成，包含完整的引用论文相关工作部分及其全文。该数据集由布尔诺理工大学创建，包含94,450篇论文和5,824,689篇独特引用论文，旨在推动从仅使用摘要生成相关工作部分到利用所有可用内容生成完整相关工作部分的转变。数据集适用于评估模型在处理长输入和生成完整相关工作方面的能力，解决现有模型在处理长文本时的局限性。

OARelatedWork is the first large-scale multi-document summarization dataset dedicated to related work generation, which includes full related work sections of cited papers and their full texts. Developed by Brno University of Technology, this dataset contains 94,450 papers and 5,824,689 unique cited papers. It aims to advance the shift from generating related work sections solely based on abstracts to producing complete related work sections by leveraging all available content. The dataset is designed to evaluate models' capabilities in handling long-form inputs and generating comprehensive related work, addressing the limitations of existing models when processing lengthy texts.

提供机构：

布尔诺理工大学

创建时间：

2024-05-03

搜集汇总

数据集介绍

构建方式

在学术文献自动生成领域，OARelatedWork数据集的构建体现了对多文档摘要任务中完整上下文信息的系统性整合。该数据集通过融合CORE和Semantic Scholar两大开放获取文献库，构建了一个包含1.249亿篇文档的初始语料库OAPapers。构建流程采用了GROBID工具将PDF文献解析为结构化的XML/TEI格式，并实施了精细的参考文献链接算法，通过匹配标题、作者和年份字段，显著提升了文献引用的准确性与覆盖率。针对文献内部结构，数据集创新性地设计了层次解析算法，依据章节编号模式自动识别并重建文档的章节、子章节、段落和句子树状结构，从而提供了深度的语义组织。最终，通过筛选包含“相关工作”类章节且引用至少两篇文献的文档，并确保验证集与测试集中所有被引文献均具备全文，形成了包含94,450篇目标文献和582万篇唯一被引文献的大规模数据集。

特点

OARelatedWork数据集的核心特征在于其规模宏大与内容完整性。作为首个专为生成完整“相关工作”章节而设计的大规模多文档摘要数据集，它突破了以往仅依赖摘要的局限，提供了目标文献全文（不含相关工作章节）及所有被引文献的全文内容。数据规模上，它远超同类数据集，训练集包含超过9万样本，且目标章节平均长度达530词，输入上下文规模显著扩大。在领域分布上，数据集虽涵盖多学科，但呈现出向计算机科学领域的显著偏移。技术层面，数据集以JSON格式提供了文档的树状层次表示，便于模型选择特定内容部分，并包含了经过清理和标准化的引用信息。这些特征共同为训练能够处理长文本输入并生成结构化工件的模型奠定了坚实基础。

使用方法

该数据集旨在推动从完整文献内容生成整个相关工作章节的研究。使用时可定义多种任务变体，以探究不同输入信息的贡献：包括仅使用摘要、使用被引文献全文、使用目标文献全文（不含相关工作章节）以及结合所有全文信息。为处理生成长文本输出的挑战，数据集配套提出了BlockMatch元评估指标，该指标通过将长文本分割为块（如段落）并运用匈牙利算法进行最优匹配，克服了BERTScore等嵌入模型对输入长度的限制，使其能更有效地评估长文本摘要的语义质量。研究人员可利用该数据集训练和评估如PRIMERA、MPT等基于Transformer的模型，或传统的TextRank等抽取式基线，通过分析不同输入配置下的ROUGE、BERTScore及专门设计的引用指标，深入理解全文上下文对生成质量的影响。

背景与挑战

背景概述

在学术文献自动摘要领域，相关工作章节的生成作为一个新兴的多文档摘要子任务，长期面临数据稀缺的挑战。2024年，布尔诺理工大学的研究团队Martin Docekal等人构建了OARelatedWork数据集，旨在推动该领域从仅依赖摘要生成片段，转向基于全文内容构建完整相关工作章节。该数据集整合了CORE和Semantic Scholar两大开放获取语料库，涵盖94,450篇目标论文及其引用的5,824,689篇独特文献，首次大规模提供了相关工作章节与引用文献的全文对应关系。其核心研究在于探索全文信息对生成模型性能的增益，实证表明使用全文可使抽取式摘要的ROUGE-2分数理论上限提升217%，为长文本生成与复杂学术结构建模奠定了新的数据基础。

当前挑战

OARelatedWork数据集致力于解决学术论文中完整‘相关工作’章节的自动生成问题，其核心挑战在于处理极长输入序列与生成连贯的长篇幅文本。现有抽象式摘要模型通常受限于输入长度，难以同时处理目标论文全文与大量引用文献的完整内容。在构建过程中，研究团队面临多重技术障碍：首先，需从异构PDF源中解析并统一学术文档的层次结构（章节、子章节、段落），其编号格式与排版惯例差异显著；其次，实现大规模文献的参考文献链接与消歧是一大难题，团队融合了多种图数据库与自研搜索器以提升链接覆盖率；再者，开放获取论文的领域分布不均导致数据集明显向计算机科学倾斜，存在领域偏移现象；最后，长文本输出对BERTScore等基于嵌入的评估指标构成挑战，因其输入长度有限，难以直接评估整个章节的语义质量。

常用场景

经典使用场景

在学术文本自动生成领域，OARelatedWork数据集为多文档摘要任务提供了前所未有的研究平台。该数据集的核心应用场景在于训练和评估模型自动生成完整的“相关工作”章节，而非仅局限于摘要层面的段落生成。研究者利用其包含的全文数据，能够模拟真实学术写作中整合多篇文献、分析异同并构建连贯论述的复杂过程。这一场景直接对应了学术出版中耗时耗力的文献综述撰写环节，为自动化辅助工具的开发奠定了数据基础。

衍生相关工作

OARelatedWork数据集的发布，预期将衍生出一系列专注于长文本、多文档学术摘要的经典研究工作。其提供的全文数据与结构化表示，将推动模型架构创新，以处理超长输入序列并生成结构化的长文本输出。同时，论文中提出的用于评估长文本摘要的BlockMatch元度量方法，也为解决嵌入模型输入长度限制这一普遍难题提供了新思路，可能激发后续更鲁棒的长文本评估指标研究。此外，该数据集为检索增强生成模型在学术领域的应用提供了理想试验场，未来工作可探索如何智能检索并整合最相关的论文内容以生成高质量的文献综述。

数据集最近研究