acmc/beamit-annotated_full_texts_dataset

Name: acmc/beamit-annotated_full_texts_dataset
Creator: acmc
Published: 2023-07-03 12:16:39
License: 暂无描述

Hugging Face2023-07-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/acmc/beamit-annotated_full_texts_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: title dtype: string - name: pmid dtype: string - name: background_abstract dtype: string - name: background_abstract_label dtype: string - name: methods_abstract dtype: string - name: methods_abstract_label dtype: string - name: results_abstract dtype: string - name: results_abstract_label dtype: string - name: conclusions_abstract dtype: string - name: conclusions_abstract_label dtype: string - name: mesh_descriptor_names sequence: string - name: pmcid dtype: string - name: background_title dtype: string - name: background_text dtype: string - name: methods_title dtype: string - name: methods_text dtype: string - name: results_title dtype: string - name: results_text dtype: string - name: conclusions_title dtype: string - name: conclusions_text dtype: string - name: other_sections_titles sequence: string - name: other_sections_texts sequence: string - name: other_sections_sec_types sequence: string - name: all_sections_titles sequence: string - name: all_sections_texts sequence: string - name: all_sections_sec_types sequence: string - name: keywords sequence: string - name: whole_article_text dtype: string - name: whole_article_abstract dtype: string - name: background_conclusion_text dtype: string - name: background_conclusion_abstract dtype: string - name: whole_article_text_length dtype: int64 - name: whole_article_abstract_length dtype: int64 - name: other_sections_lengths sequence: int64 - name: num_sections dtype: int64 - name: most_frequent_words sequence: string - name: keybert_topics sequence: string - name: annotated_base_background_abstract_prompt dtype: string - name: annotated_base_methods_abstract_prompt dtype: string - name: annotated_base_results_abstract_prompt dtype: string - name: annotated_base_conclusions_abstract_prompt dtype: string - name: annotated_base_whole_article_abstract_prompt dtype: string - name: annotated_base_background_conclusion_abstract_prompt dtype: string - name: annotated_keywords_background_abstract_prompt dtype: string - name: annotated_keywords_methods_abstract_prompt dtype: string - name: annotated_keywords_results_abstract_prompt dtype: string - name: annotated_keywords_conclusions_abstract_prompt dtype: string - name: annotated_keywords_whole_article_abstract_prompt dtype: string - name: annotated_keywords_background_conclusion_abstract_prompt dtype: string - name: annotated_mesh_background_abstract_prompt dtype: string - name: annotated_mesh_methods_abstract_prompt dtype: string - name: annotated_mesh_results_abstract_prompt dtype: string - name: annotated_mesh_conclusions_abstract_prompt dtype: string - name: annotated_mesh_whole_article_abstract_prompt dtype: string - name: annotated_mesh_background_conclusion_abstract_prompt dtype: string - name: annotated_keybert_background_abstract_prompt dtype: string - name: annotated_keybert_methods_abstract_prompt dtype: string - name: annotated_keybert_results_abstract_prompt dtype: string - name: annotated_keybert_conclusions_abstract_prompt dtype: string - name: annotated_keybert_whole_article_abstract_prompt dtype: string - name: annotated_keybert_background_conclusion_abstract_prompt dtype: string - name: annotated_most_frequent_background_abstract_prompt dtype: string - name: annotated_most_frequent_methods_abstract_prompt dtype: string - name: annotated_most_frequent_results_abstract_prompt dtype: string - name: annotated_most_frequent_conclusions_abstract_prompt dtype: string - name: annotated_most_frequent_whole_article_abstract_prompt dtype: string - name: annotated_most_frequent_background_conclusion_abstract_prompt dtype: string - name: annotated_tf_idf_background_abstract_prompt dtype: string - name: annotated_tf_idf_methods_abstract_prompt dtype: string - name: annotated_tf_idf_results_abstract_prompt dtype: string - name: annotated_tf_idf_conclusions_abstract_prompt dtype: string - name: annotated_tf_idf_whole_article_abstract_prompt dtype: string - name: annotated_tf_idf_background_conclusion_abstract_prompt dtype: string - name: annotated_entity_plan_background_abstract_prompt dtype: string - name: annotated_entity_plan_methods_abstract_prompt dtype: string - name: annotated_entity_plan_results_abstract_prompt dtype: string - name: annotated_entity_plan_conclusions_abstract_prompt dtype: string - name: annotated_entity_plan_whole_article_abstract_prompt dtype: string - name: annotated_entity_plan_background_conclusion_abstract_prompt dtype: string splits: - name: train num_bytes: 1887019064.0012002 num_examples: 13996 - name: test num_bytes: 404476792.79819953 num_examples: 3000 - name: val num_bytes: 404341967.20060015 num_examples: 2999 download_size: 957059277 dataset_size: 2695837824.0 --- # Dataset Card for "beamit-annotated_full_texts_dataset" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

dataset_info: 特征列表： - 字段名：标题（title），数据类型：字符串 - 字段名：PubMed ID (pmid)，数据类型：字符串 - 字段名：背景摘要（background_abstract），数据类型：字符串 - 字段名：背景摘要标注标签（background_abstract_label），数据类型：字符串 - 字段名：方法学摘要（methods_abstract），数据类型：字符串 - 字段名：方法学摘要标注标签（methods_abstract_label），数据类型：字符串 - 字段名：结果摘要（results_abstract），数据类型：字符串 - 字段名：结果摘要标注标签（results_abstract_label），数据类型：字符串 - 字段名：结论摘要（conclusions_abstract），数据类型：字符串 - 字段名：结论摘要标注标签（conclusions_abstract_label），数据类型：字符串 - 字段名：医学主题词（Medical Subject Headings, MeSH）描述符名称（mesh_descriptor_names），序列类型：字符串序列 - 字段名：PubMed Central ID (pmcid)，数据类型：字符串 - 字段名：背景章节标题（background_title），数据类型：字符串 - 字段名：背景章节文本（background_text），数据类型：字符串 - 字段名：方法学章节标题（methods_title），数据类型：字符串 - 字段名：方法学章节文本（methods_text），数据类型：字符串 - 字段名：结果章节标题（results_title），数据类型：字符串 - 字段名：结果章节文本（results_text），数据类型：字符串 - 字段名：结论章节标题（conclusions_title），数据类型：字符串 - 字段名：结论章节文本（conclusions_text），数据类型：字符串 - 字段名：其他章节标题（other_sections_titles），序列类型：字符串序列 - 字段名：其他章节文本（other_sections_texts），序列类型：字符串序列 - 字段名：其他章节类型（other_sections_sec_types），序列类型：字符串序列 - 字段名：所有章节标题（all_sections_titles），序列类型：字符串序列 - 字段名：所有章节文本（all_sections_texts），序列类型：字符串序列 - 字段名：所有章节类型（all_sections_sec_types），序列类型：字符串序列 - 字段名：关键词（keywords），序列类型：字符串序列 - 字段名：全文章本（whole_article_text），数据类型：字符串 - 字段名：全文摘要（whole_article_abstract），数据类型：字符串 - 字段名：背景与结论文本（background_conclusion_text），数据类型：字符串 - 字段名：背景与结论摘要（background_conclusion_abstract），数据类型：字符串 - 字段名：全文章本长度（whole_article_text_length），数据类型：64位整数 - 字段名：全文摘要长度（whole_article_abstract_length），数据类型：64位整数 - 字段名：其他章节长度列表（other_sections_lengths），序列类型：64位整数序列 - 字段名：章节数量（num_sections），数据类型：64位整数 - 字段名：高频词列表（most_frequent_words），序列类型：字符串序列 - 字段名：KeyBERT主题列表（keybert_topics），序列类型：字符串序列 - 字段名：带基础标注的背景摘要提示词（annotated_base_background_abstract_prompt），数据类型：字符串 - 字段名：带基础标注的方法学摘要提示词（annotated_base_methods_abstract_prompt），数据类型：字符串 - 字段名：带基础标注的结果摘要提示词（annotated_base_results_abstract_prompt），数据类型：字符串 - 字段名：带基础标注的结论摘要提示词（annotated_base_conclusions_abstract_prompt），数据类型：字符串 - 字段名：带基础标注的全文摘要提示词（annotated_base_whole_article_abstract_prompt），数据类型：字符串 - 字段名：带基础标注的背景与结论摘要提示词（annotated_base_background_conclusion_abstract_prompt），数据类型：字符串 - 字段名：基于关键词标注的背景摘要提示词（annotated_keywords_background_abstract_prompt），数据类型：字符串 - 字段名：基于关键词标注的方法学摘要提示词（annotated_keywords_methods_abstract_prompt），数据类型：字符串 - 字段名：基于关键词标注的结果摘要提示词（annotated_keywords_results_abstract_prompt），数据类型：字符串 - 字段名：基于关键词标注的结论摘要提示词（annotated_keywords_conclusions_abstract_prompt），数据类型：字符串 - 字段名：基于关键词标注的全文摘要提示词（annotated_keywords_whole_article_abstract_prompt），数据类型：字符串 - 字段名：基于关键词标注的背景与结论摘要提示词（annotated_keywords_background_conclusion_abstract_prompt），数据类型：字符串 - 字段名：基于MeSH标注的背景摘要提示词（annotated_mesh_background_abstract_prompt），数据类型：字符串 - 字段名：基于MeSH标注的方法学摘要提示词（annotated_mesh_methods_abstract_prompt），数据类型：字符串 - 字段名：基于MeSH标注的结果摘要提示词（annotated_mesh_results_abstract_prompt），数据类型：字符串 - 字段名：基于MeSH标注的结论摘要提示词（annotated_mesh_conclusions_abstract_prompt），数据类型：字符串 - 字段名：基于MeSH标注的全文摘要提示词（annotated_mesh_whole_article_abstract_prompt），数据类型：字符串 - 字段名：基于MeSH标注的背景与结论摘要提示词（annotated_mesh_background_conclusion_abstract_prompt），数据类型：字符串 - 字段名：基于KeyBERT标注的背景摘要提示词（annotated_keybert_background_abstract_prompt），数据类型：字符串 - 字段名：基于KeyBERT标注的方法学摘要提示词（annotated_keybert_methods_abstract_prompt），数据类型：字符串 - 字段名：基于KeyBERT标注的结果摘要提示词（annotated_keybert_results_abstract_prompt），数据类型：字符串 - 字段名：基于KeyBERT标注的结论摘要提示词（annotated_keybert_conclusions_abstract_prompt），数据类型：字符串 - 字段名：基于KeyBERT标注的全文摘要提示词（annotated_keybert_whole_article_abstract_prompt），数据类型：字符串 - 字段名：基于KeyBERT标注的背景与结论摘要提示词（annotated_keybert_background_conclusion_abstract_prompt），数据类型：字符串 - 字段名：基于高频词标注的背景摘要提示词（annotated_most_frequent_background_abstract_prompt），数据类型：字符串 - 字段名：基于高频词标注的方法学摘要提示词（annotated_most_frequent_methods_abstract_prompt），数据类型：字符串 - 字段名：基于高频词标注的结果摘要提示词（annotated_most_frequent_results_abstract_prompt），数据类型：字符串 - 字段名：基于高频词标注的结论摘要提示词（annotated_most_frequent_conclusions_abstract_prompt），数据类型：字符串 - 字段名：基于高频词标注的全文摘要提示词（annotated_most_frequent_whole_article_abstract_prompt），数据类型：字符串 - 字段名：基于高频词标注的背景与结论摘要提示词（annotated_most_frequent_background_conclusion_abstract_prompt），数据类型：字符串 - 字段名：基于TF-IDF标注的背景摘要提示词（annotated_tf_idf_background_abstract_prompt），数据类型：字符串 - 字段名：基于TF-IDF标注的方法学摘要提示词（annotated_tf_idf_methods_abstract_prompt），数据类型：字符串 - 字段名：基于TF-IDF标注的结果摘要提示词（annotated_tf_idf_results_abstract_prompt），数据类型：字符串 - 字段名：基于TF-IDF标注的结论摘要提示词（annotated_tf_idf_conclusions_abstract_prompt），数据类型：字符串 - 字段名：基于TF-IDF标注的全文摘要提示词（annotated_tf_idf_whole_article_abstract_prompt），数据类型：字符串 - 字段名：基于TF-IDF标注的背景与结论摘要提示词（annotated_tf_idf_background_conclusion_abstract_prompt），数据类型：字符串 - 字段名：基于实体规划标注的背景摘要提示词（annotated_entity_plan_background_abstract_prompt），数据类型：字符串 - 字段名：基于实体规划标注的方法学摘要提示词（annotated_entity_plan_methods_abstract_prompt），数据类型：字符串 - 字段名：基于实体规划标注的结果摘要提示词（annotated_entity_plan_results_abstract_prompt），数据类型：字符串 - 字段名：基于实体规划标注的结论摘要提示词（annotated_entity_plan_conclusions_abstract_prompt），数据类型：字符串 - 字段名：基于实体规划标注的全文摘要提示词（annotated_entity_plan_whole_article_abstract_prompt），数据类型：字符串 - 字段名：基于实体规划标注的背景与结论摘要提示词（annotated_entity_plan_background_conclusion_abstract_prompt），数据类型：字符串数据集划分： - 划分名称：训练集（train），字节数：1887019064.0012002，样本数量：13996 - 划分名称：测试集（test），字节数：404476792.79819953，样本数量：3000 - 划分名称：验证集（val），字节数：404341967.20060015，样本数量：2999 下载大小：957059277 字节数据集总大小：2695837824.0 字节 --- # “beamit-标注全文本数据集”数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

acmc

原始信息汇总

数据集概述

数据集名称

"beamit-annotated_full_texts_dataset"

数据集特征

数据集包含以下特征：

标题 (title)：字符串类型
PMID (pmid)：字符串类型
背景摘要 (background_abstract)：字符串类型
方法摘要 (methods_abstract)：字符串类型
结果摘要 (results_abstract)：字符串类型
结论摘要 (conclusions_abstract)：字符串类型
MESH描述符名称 (mesh_descriptor_names)：字符串序列类型
PMCID (pmcid)：字符串类型
背景标题 (background_title)：字符串类型
方法标题 (methods_title)：字符串类型
结果标题 (results_title)：字符串类型
结论标题 (conclusions_title)：字符串类型
其他部分标题 (other_sections_titles)：字符串序列类型
其他部分文本 (other_sections_texts)：字符串序列类型
所有部分标题 (all_sections_titles)：字符串序列类型
所有部分文本 (all_sections_texts)：字符串序列类型
关键词 (keywords)：字符串序列类型
全文文本 (whole_article_text)：字符串类型
全文摘要 (whole_article_abstract)：字符串类型
背景结论文本 (background_conclusion_text)：字符串类型
背景结论摘要 (background_conclusion_abstract)：字符串类型
全文文本长度 (whole_article_text_length)：整数类型
全文摘要长度 (whole_article_abstract_length)：整数类型
其他部分长度 (other_sections_lengths)：整数序列类型
部分数量 (num_sections)：整数类型
最频繁词 (most_frequent_words)：字符串序列类型
KeyBERT主题 (keybert_topics)：字符串序列类型

数据集划分

训练集 (train)：13996个样本，大小为1887019064.0012002字节
测试集 (test)：3000个样本，大小为404476792.79819953字节
验证集 (val)：2999个样本，大小为404341967.20060015字节

数据集大小

下载大小：957059277字节
数据集总大小：2695837824.0字节

搜集汇总

数据集介绍

构建方式

在生物医学文献信息抽取领域，beamit-annotated_full_texts_dataset的构建体现了系统化数据工程理念。该数据集源自PubMed Central的开放获取全文文献，通过自动化与人工标注相结合的方式，对每篇论文进行了精细的结构化解构。构建过程首先依据标准学术论文框架，将全文划分为背景、方法、结果、结论等核心章节，并同步提取了对应的摘要片段。进一步整合了MeSH主题词、关键词、高频词等多种语义特征，并运用KeyBERT等先进技术生成主题表示，最终形成了包含原始文本、结构化标签及多维度提示的综合性语料库。

特点

该数据集在生物医学文本资源中展现出鲜明的多维集成特性。其核心优势在于提供了从全文到摘要的完整对齐结构，每篇文献均包含章节标题、正文内容及对应的摘要标签，实现了宏观篇章结构与微观语义单元的有机联结。数据集深度融合了多种知识表示形式，包括受控词汇表（MeSH）、自动提取的关键词与主题，以及基于TF-IDF和实体规划的语义提示，构建了一个层次丰富的语义网络。这种设计不仅支持传统的文本分类与信息抽取任务，更能为生成式摘要模型提供多源、多粒度的监督信号，推动了生物医学自然语言处理向更精细、更可控的方向演进。

使用方法

针对生物医学文本挖掘与摘要生成的研究需求，该数据集提供了灵活而强大的应用接口。研究者可直接加载标准化的数据分割（训练集、验证集、测试集），利用其丰富的特征字段进行模型训练与评估。对于摘要生成任务，可调用各类`annotated_*_prompt`字段，这些预构建的提示融合了不同语义特征，能够引导模型生成特定风格或聚焦特定内容的摘要。同时，完整的章节结构与标签体系支持篇章理解、章节分类、关键词抽取等下游任务。数据集的标准化格式确保了与主流深度学习框架的无缝对接，为探索数据驱动与知识引导相结合的智能文献处理范式奠定了坚实基础。

背景与挑战

背景概述

在生物医学信息学领域，科学文献的自动化摘要生成是提升知识获取效率的关键技术。BEAMIT-annotated_full_texts_dataset由acmc团队构建，旨在为基于指令的生物医学文本摘要任务提供结构化标注数据。该数据集收录了约两万篇生物医学全文文献，每篇均细致划分了背景、方法、结果、结论等章节，并附有对应的摘要片段标签。其核心研究问题聚焦于如何利用细粒度的章节标注，指导大型语言模型生成更准确、连贯的生物医学摘要。该资源的推出，为生物医学自然语言处理模型，特别是指令微调与可控文本生成，提供了重要的训练与评估基准。

当前挑战

该数据集致力于应对生物医学文本摘要任务中，因专业术语密集、逻辑结构复杂而导致的摘要信息失真与连贯性不足的挑战。在构建过程中，首要挑战在于对海量全文文献进行精确的章节结构解析与对齐，确保背景、方法等章节与摘要片段标签的准确对应。其次，生物医学领域的专业性与多样性，要求标注过程具备深厚的领域知识，以保障标注质量的一致性。此外，如何设计多样化的提示词（prompt）以覆盖不同的摘要生成策略，也是数据集构建中需要克服的技术难点。

常用场景

经典使用场景

在生物医学信息学领域，该数据集以其精细的结构化标注而著称，为自然语言处理任务提供了丰富的语料资源。其经典使用场景聚焦于学术文本的自动摘要生成，特别是针对医学研究论文的摘要部分进行结构化解析与重建。通过将全文划分为背景、方法、结果和结论等标准章节，并辅以多种关键词和主题标注，该数据集能够支持模型学习医学文献的严谨逻辑框架，从而生成符合学术规范的摘要内容。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，主要集中在基于提示的摘要生成和医学文本分析领域。研究者利用其丰富的标注提示字段，开发了多种端到端的摘要模型，探索了不同关键词提取方法对摘要质量的影响。同时，该数据集也催生了针对医学文献章节分类和主题建模的新方法，为生物医学自然语言处理提供了重要的基准测试平台，推动了相关技术的创新与演进。

数据集最近研究