acmc/beamit-full-texts-dataset

Name: acmc/beamit-full-texts-dataset
Creator: acmc
Published: 2023-07-01 22:55:13
License: 暂无描述

Hugging Face2023-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/acmc/beamit-full-texts-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: title dtype: string - name: pmid dtype: string - name: background_abstract dtype: string - name: background_abstract_label dtype: string - name: methods_abstract dtype: string - name: methods_abstract_label dtype: string - name: results_abstract dtype: string - name: results_abstract_label dtype: string - name: conclusions_abstract dtype: string - name: conclusions_abstract_label dtype: string - name: mesh_descriptor_names sequence: string - name: pmcid dtype: string - name: background_title dtype: string - name: background_text dtype: string - name: methods_title dtype: string - name: methods_text dtype: string - name: results_title dtype: string - name: results_text dtype: string - name: conclusions_title dtype: string - name: conclusions_text dtype: string - name: other_sections_titles sequence: string - name: other_sections_texts sequence: string - name: other_sections_sec_types sequence: string - name: all_sections_titles sequence: string - name: all_sections_texts sequence: string - name: all_sections_sec_types sequence: string - name: keywords sequence: string splits: - name: train num_bytes: 2691091759 num_examples: 24039 download_size: 867478489 dataset_size: 2691091759 --- # Dataset Card for "beamit-full-texts-dataset" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

acmc

原始信息汇总

数据集概述

数据集名称

beamit-full-texts-dataset

数据集特征

title (string)
pmid (string)
background_abstract (string)
background_abstract_label (string)
methods_abstract (string)
methods_abstract_label (string)
results_abstract (string)
results_abstract_label (string)
conclusions_abstract (string)
conclusions_abstract_label (string)
mesh_descriptor_names (sequence: string)
pmcid (string)
background_title (string)
background_text (string)
methods_title (string)
methods_text (string)
results_title (string)
results_text (string)
conclusions_title (string)
conclusions_text (string)
other_sections_titles (sequence: string)
other_sections_texts (sequence: string)
other_sections_sec_types (sequence: string)
all_sections_titles (sequence: string)
all_sections_texts (sequence: string)
all_sections_sec_types (sequence: string)
keywords (sequence: string)

数据集拆分

train
- num_bytes: 2691091759
- num_examples: 24039

数据集大小

download_size: 867478489
dataset_size: 2691091759

搜集汇总

数据集介绍

构建方式

在生物医学文献日益增长的背景下，结构化全文数据的获取对于自然语言处理研究至关重要。acmc/beamit-full-texts-dataset 数据集通过系统性地从PubMed Central（PMC）中提取并整理全文文章构建而成。每条数据均包含文章的标题、PMID、PMCID、结构化摘要（背景、方法、结果、结论及其标签）、MeSH描述词、关键词，以及通过自动解析将全文内容按章节划分为背景、方法、结果、结论等部分，并保留其他章节的标题、文本和类型信息。最终将所有章节统一整合，形成完整的结构化全文表示。

特点

该数据集的核心特点在于其精细的结构化层次与丰富的语义标注。它不仅提供了传统数据集中的标题和摘要信息，更以章节为单位完整保留了全文的文本内容，并针对摘要的四个核心部分（背景、方法、结果、结论）进行了标签化处理。此外，数据集还包含了MeSH描述词和关键词，为生物医学文本挖掘提供了多维度、高质量的语料资源。其训练集包含24,039个样本，规模适中，兼顾了数据覆盖性与计算效率。

使用方法

该数据集适用于多种生物医学自然语言处理任务。研究者可直接利用其结构化章节进行全文摘要生成、论文章节分类或信息抽取；结合摘要标签可用于结构化摘要的自动构建与质量评估。通过MeSH描述词和关键词，可支持主题建模与语义检索。数据以HuggingFace Datasets格式提供，用户可通过`load_dataset`函数轻松加载，并根据任务需求灵活选择特定字段（如`background_text`与`methods_text`）进行模型训练与评估。

背景与挑战

背景概述

在生物医学信息学领域，科学文献的结构化解析对于知识提取与智能检索具有基石意义。acmc/beamit-full-texts-dataset数据集由研究团队构建，旨在解决生物医学论文全文的结构化标注问题，其创建时间可追溯至近年自然语言处理与医学文本挖掘的交叉研究热潮。该数据集涵盖超过两万四千篇PubMed Central全文文献，每篇文献被精细拆分为背景、方法、结果、结论等核心章节，并辅以MeSH主题词与关键词标注，为生物医学文本的章节级语义理解提供了规模化的高质量资源。这一数据集的问世，显著推动了从非结构化全文到结构化知识单元的自动转换研究，成为信息提取、文档摘要及学术知识图谱构建等领域的重要基准。

当前挑战

当前该数据集面临的核心挑战体现在两个层面。其一，在领域问题层面，生物医学论文的章节结构虽具有普遍范式，但不同学科、期刊乃至作者间的写作风格差异导致章节边界模糊，例如部分文献将方法分散嵌入结果部分，使得基于该数据集训练的模型在跨领域泛化时易出现结构性误判。其二，在构建过程中，数据标注依赖自动解析与人工校验的混合策略，但大规模文献中存在的图表引用、公式嵌入及多语言摘要等复杂元素，增加了文本分割与标签对齐的难度；同时，数据集中部分章节（如结论部分）的文本长度分布极不均衡，可能引发模型对短文本章节的语义特征捕获不足，限制了其在细粒度学术分析任务中的表现。

常用场景

经典使用场景

在生物医学文本挖掘与自然语言处理领域，acmc/beamit-full-texts-dataset 凭借其结构化的全文标注信息，成为学术文献结构化解析的经典资源。该数据集将论文拆解为背景、方法、结果、结论等核心章节，并配以对应的标题与正文内容，使得研究者能够针对性地训练模型以自动识别和抽取不同章节的语义信息。例如，通过利用其背景摘要与标签字段，可构建用于医学论文引言部分的自动分类器；而方法章节的文本与标签则为实验流程的自动提取提供了理想训练材料。这种精细化的章节划分，使得该数据集在生物医学文献的自动化处理中占据了不可替代的地位。

实际应用

在实际应用中，该数据集被广泛用于构建智能文献管理系统和辅助科研工具。例如，研究人员可基于其内容开发自动提取论文背景、方法或结论的插件，帮助科研人员在阅读海量文献时快速定位关键信息。此外，该数据集还可用于训练医疗知识图谱的构建模块，通过从方法章节中识别实验设计、从结果章节中抽取数据指标，实现临床指南的自动化更新与决策支持。在精准医学领域，基于该数据集的模型能够从文献中高效解析基因-疾病关联或药物疗效证据，为个性化治疗方案的制定提供数据驱动的参考。

衍生相关工作

基于 acmc/beamit-full-texts-dataset，学术界衍生了一系列具有影响力的经典工作。例如，有研究利用其章节标签训练了基于 Transformer 的篇章结构解析器，实现了对生物医学论文的自动章节划分与语义标注，准确率显著超越传统规则方法。另一些工作则聚焦于跨章节的信息融合，通过构建图神经网络模型，从背景、方法、结果等章节中联合抽取研究假设、实验设计与核心发现，推动了自动科学发现系统的进步。此外，该数据集还被用于预训练语言模型的领域适应任务，通过在其全文数据上进行掩码语言建模，提升了模型在生物医学文本理解上的表现，为后续的问答、摘要等下游任务提供了坚实的基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集