armanc/scientific_papers

Name: armanc/scientific_papers
Creator: armanc
Published: 2024-01-18 11:15:30
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/armanc/scientific_papers

下载链接

链接失效反馈

官方服务：

资源简介：

科学论文数据集包含两组长且结构化的文档，分别来自ArXiv和PubMed OpenAccess存储库。每个子集（arxiv和pubmed）都有三个特征：article（文档正文，段落由/n分隔）、abstract（文档摘要，段落由/n分隔）和section_names（章节标题，由/n分隔）。数据集主要用于摘要生成任务，且为单语言（英语）。

提供机构：

armanc

原始信息汇总

数据集概述

基本信息

名称: ScientificPapers
语言: 英语
许可: 未知
多语言性: 单语种
大小: 100K<n<1M
来源: 原始数据
任务类别: 摘要生成
标签: 抽象摘要生成

数据集配置

arxiv

特征:
- article: 文章主体，字符串类型
- abstract: 文章摘要，字符串类型
- section_names: 章节标题，字符串类型
分割:
- train: 203037个样本，7148341992字节
- validation: 6436个样本，217125524字节
- test: 6440个样本，217514961字节
下载大小: 4504646347字节
数据集大小: 7582982477字节

pubmed

特征:
- article: 文章主体，字符串类型
- abstract: 文章摘要，字符串类型
- section_names: 章节标题，字符串类型
分割:
- train: 119924个样本，2252027383字节
- validation: 6633个样本，127403398字节
- test: 6658个样本，127184448字节
下载大小: 4504646347字节
数据集大小: 2506615229字节

数据实例

arxiv

训练样本示例: json { "abstract": "" we have studied the leptonic decay @xmath0 , via the decay channel @xmath1 , using a sample of tagged @xmath2 decays collected...", "article": ""the leptonic decays of a charged pseudoscalar meson @xmath7 are processes of the type @xmath8 , where @xmath9 , @xmath10 , or @...", "section_names": "[sec:introduction]introduction [sec:detector]data and the cleo- detector [sec:analysys]analysis method [sec:conclusion]summary" }

pubmed

验证样本示例: json { "abstract": "" background and aim : there is lack of substantial indian data on venous thromboembolism ( vte ) . \n the aim of this study was...", "article": ""approximately , one - third of patients with symptomatic vte manifests pe , whereas two - thirds manifest dvt alone .\nboth dvt...", "section_names": ""Introduction\nSubjects and Methods\nResults\nDemographics and characteristics of venous thromboembolism patients\nRisk factors ..." }

数据字段

arxiv

article: 字符串类型
abstract: 字符串类型
section_names: 字符串类型

pubmed

article: 字符串类型
abstract: 字符串类型
section_names: 字符串类型

数据分割

名称	训练集	验证集	测试集
arxiv	203037	6436	6440
pubmed	119924	6633	6658

搜集汇总

数据集介绍

构建方式

Scientific Papers数据集源自ArXiv与PubMed OpenAccess两大开放获取知识库，旨在为长文档的抽象式摘要任务提供结构化数据支撑。其构建过程聚焦于采集长篇且具有明确章节划分的学术论文，每篇样本均包含完整的正文（article）、对应的摘要（abstract）以及章节标题序列（section_names），其中正文与摘要内的段落以换行符分隔，章节标题亦以换行符串联，从而保留了文档原有的篇章结构信息。数据集分为arxiv与pubmed两个子集，分别对应物理学、数学、计算机科学等领域的预印本论文以及生物医学领域的同行评审文献，总计涵盖超过32万篇论文，并按照训练、验证和测试集进行了划分。

特点

该数据集最显著的特点在于其专注于长文档的抽象式摘要，所有样本均源自真实学术论文，篇幅较长且结构严谨，这使其区别于多数以短文本为主的摘要数据集。每个样本不仅提供正文与摘要的对偶关系，还额外收录了章节标题信息，这一设计能够辅助模型捕捉文档的宏观论述逻辑与层次结构。数据集规模宏大，arxiv子集包含约20万篇训练样本，pubmed子集包含约12万篇训练样本，总计超过10GB的文本数据，为训练大规模生成式模型提供了充足的语料。此外，数据来源于两个不同学科领域，有助于评估模型在跨领域长文本摘要任务上的泛化能力。

使用方法

使用该数据集时，可通过HuggingFace的datasets库直接加载，并指定配置名称为'arxiv'或'pubmed'以获取相应子集。每个样本以字典形式返回，包含'article'（正文）、'abstract'（摘要）和'section_names'（章节标题）三个字符串字段。适用于训练和评估抽象式摘要模型，尤其在面对长篇学术文档时，可结合章节标题信息设计篇章级注意力机制或层次化编码器。数据已预分为train、validation和test三组，便于直接用于模型训练与性能评测。使用者需注意，原始文本中包含大量LaTeX标记、引用格式及专业术语，建议在预处理阶段进行适当的清洗与规范化处理。

背景与挑战

背景概述

在自然语言处理领域，长文档的抽象式摘要生成一直是一项极具挑战性的任务，尤其是针对结构复杂、术语密集的学术文献。为应对这一难题，Arman Cohan等研究者在2018年提出了Scientific Papers数据集，该数据集由来自ArXiv和PubMed开放获取知识库的两组长篇结构化文档构成，分别包含约20.3万篇和11.9万篇论文。数据集的核心研究问题在于推动对长篇学术文本的语义理解与摘要生成，其配套论文提出了一种基于篇章感知的注意力模型，为后续研究奠定了重要基础。该数据集的诞生不仅丰富了摘要生成任务的基准资源，更促进了自然语言处理技术在科学研究文献自动化处理中的应用，对学术信息压缩与知识传播产生了深远影响。

当前挑战

Scientific Papers数据集所面临的挑战主要体现在两个层面。在领域问题层面，长文档摘要生成需要模型具备跨段落的全局语义建模能力，以精准提取并凝练核心信息，这远复杂于短文本摘要任务；同时，学术文献中专业术语与公式的存在增加了语言理解的难度。在数据集构建过程中，从海量开放获取仓库中筛选、清洗并标准化论文内容是一项艰巨任务，需确保文章、摘要及章节标题的完整性与一致性；此外，处理超长文本带来的存储与计算开销，以及不同学科间写作风格的差异，均为数据集的构建与后续应用带来了显著挑战。

常用场景

经典使用场景

Scientific Papers数据集源自ArXiv和PubMed开放获取库，汇聚了超过32万篇长篇结构化科学文献，每篇包含完整的论文正文、摘要及章节标题。其经典应用场景在于推动长文本抽象式摘要生成技术的发展。由于传统摘要模型多聚焦于新闻等短文本，难以捕捉科学论文中复杂的论证逻辑与多层级结构，该数据集为训练和评估能够处理数万字长文档的序列到序列模型提供了基准。研究者利用其篇章级标注信息，探索如何将文档的章节结构融入注意力机制，从而生成更连贯、更具信息密度的摘要，显著提升了在专业学术领域中的文本压缩与信息提炼能力。

解决学术问题

该数据集系统性地解决了两个核心学术难题：其一，填补了长文档抽象摘要领域高质量基准数据的空白，此前缺乏兼顾规模与结构标注的语料库；其二，为篇章感知的神经网络架构设计提供了实验平台。通过对比实验，研究者得以量化分析模型对科学论文中引言、方法、结论等不同章节内容的关注权重，从而揭示摘要生成中信息源的重要性分布。这推动了注意力机制从词级向篇章级的演进，催生了如Hibrid Discourse-Aware等创新模型，并为评估长文本生成任务中的忠实度与抽象性设立了新标准，深刻影响了自然语言处理领域对结构化文本理解的研究范式。

衍生相关工作

该数据集衍生了一系列具有深远影响的经典工作。最核心的是其原生论文提出的篇章感知注意力模型（Discourse-Aware Attention Model），该模型首次将文档的章节结构显式编码到序列到序列框架中，在ArXiv和PubMed上均取得了当时最优的ROUGE分数。后续工作如PEGASUS模型采用间隙句子生成策略进行预训练，在该数据集上验证了其在大规模语料上学习摘要能力的有效性。此外，Longformer和BigBird等高效长文本Transformer架构均以此数据集作为关键评测基准，推动了稀疏注意力机制的发展。这些工作共同构建了长文档自然语言处理从建模到预训练再到高效推理的完整技术链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集