pietrolesci/pubmed-200k-rct

Name: pietrolesci/pubmed-200k-rct
Creator: pietrolesci
Published: 2023-09-11 16:14:30
License: 暂无描述

Hugging Face2023-09-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pietrolesci/pubmed-200k-rct

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* - config_name: embedding_all-MiniLM-L12-v2 data_files: - split: train path: embedding_all-MiniLM-L12-v2/train-* - split: validation path: embedding_all-MiniLM-L12-v2/validation-* - split: test path: embedding_all-MiniLM-L12-v2/test-* - config_name: embedding_all-mpnet-base-v2 data_files: - split: train path: embedding_all-mpnet-base-v2/train-* - split: validation path: embedding_all-mpnet-base-v2/validation-* - split: test path: embedding_all-mpnet-base-v2/test-* - config_name: embedding_multi-qa-mpnet-base-dot-v1 data_files: - split: train path: embedding_multi-qa-mpnet-base-dot-v1/train-* - split: validation path: embedding_multi-qa-mpnet-base-dot-v1/validation-* - split: test path: embedding_multi-qa-mpnet-base-dot-v1/test-* dataset_info: - config_name: default features: - name: labels dtype: class_label: names: '0': BACKGROUND '1': CONCLUSIONS '2': METHODS '3': OBJECTIVE '4': RESULTS - name: text dtype: string - name: uid dtype: int64 splits: - name: train num_bytes: 379382835 num_examples: 2211861 - name: validation num_bytes: 4994899 num_examples: 28932 - name: test num_bytes: 5026344 num_examples: 29493 download_size: 209039426 dataset_size: 389404078 - config_name: embedding_all-MiniLM-L12-v2 features: - name: uid dtype: int64 - name: embedding_all-MiniLM-L12-v2 sequence: float32 splits: - name: train num_bytes: 3423960828 num_examples: 2211861 - name: validation num_bytes: 44786736 num_examples: 28932 - name: test num_bytes: 45655164 num_examples: 29493 download_size: 4916495311 dataset_size: 3514402728 - config_name: embedding_all-mpnet-base-v2 features: - name: uid dtype: int64 - name: embedding_all-mpnet-base-v2 sequence: float32 splits: - name: train num_bytes: 6821379324 num_examples: 2211861 - name: validation num_bytes: 89226288 num_examples: 28932 - name: test num_bytes: 90956412 num_examples: 29493 download_size: 8405313596 dataset_size: 7001562024 - config_name: embedding_multi-qa-mpnet-base-dot-v1 features: - name: uid dtype: int64 - name: embedding_multi-qa-mpnet-base-dot-v1 sequence: float32 splits: - name: train num_bytes: 6821379324 num_examples: 2211861 - name: validation num_bytes: 89226288 num_examples: 28932 - name: test num_bytes: 90956412 num_examples: 29493 download_size: 8405286790 dataset_size: 7001562024 --- # Dataset Card for "pubmed-200k-rct" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名称：default 数据文件： - 数据集划分：train（训练集），路径：data/train-* - 数据集划分：validation（验证集），路径：data/validation-* - 数据集划分：test（测试集），路径：data/test-* - 配置名称：embedding_all-MiniLM-L12-v2 数据文件： - 数据集划分：train，路径：embedding_all-MiniLM-L12-v2/train-* - 数据集划分：validation，路径：embedding_all-MiniLM-L12-v2/validation-* - 数据集划分：test，路径：embedding_all-MiniLM-L12-v2/test-* - 配置名称：embedding_all-mpnet-base-v2 数据文件： - 数据集划分：train，路径：embedding_all-mpnet-base-v2/train-* - 数据集划分：validation，路径：embedding_all-mpnet-base-v2/validation-* - 数据集划分：test，路径：embedding_all-mpnet-base-v2/test-* - 配置名称：embedding_multi-qa-mpnet-base-dot-v1 数据文件： - 数据集划分：train，路径：embedding_multi-qa-mpnet-base-dot-v1/train-* - 数据集划分：validation，路径：embedding_multi-qa-mpnet-base-dot-v1/validation-* - 数据集划分：test，路径：embedding_multi-qa-mpnet-base-dot-v1/test-* 数据集信息： - 配置名称：default 特征： - 标签（labels）：数据类型为类别标签（class_label），类别映射如下： '0': BACKGROUND（背景） '1': CONCLUSIONS（结论） '2': METHODS（方法） '3': OBJECTIVE（目标） '4': RESULTS（结果） - 文本（text）：数据类型为字符串（string） - 唯一标识符（uid）：数据类型为64位整数（int64）数据集划分详情： - 训练集（train）：字节数379382835，样本量2211861 - 验证集（validation）：字节数4994899，样本量28932 - 测试集（test）：字节数5026344，样本量29493 下载大小：209039426，数据集总大小：389404078 - 配置名称：embedding_all-MiniLM-L12-v2 特征： - 唯一标识符（uid）：数据类型为64位整数（int64） - embedding_all-MiniLM-L12-v2：32位浮点数（float32）序列数据集划分详情： - 训练集（train）：字节数3423960828，样本量2211861 - 验证集（validation）：字节数44786736，样本量28932 - 测试集（test）：字节数45655164，样本量29493 下载大小：4916495311，数据集总大小：3514402728 - 配置名称：embedding_all-mpnet-base-v2 特征： - 唯一标识符（uid）：数据类型为64位整数（int64） - embedding_all-mpnet-base-v2：32位浮点数序列数据集划分详情： - 训练集（train）：字节数6821379324，样本量2211861 - 验证集（validation）：字节数89226288，样本量28932 - 测试集（test）：字节数90956412，样本量29493 下载大小：8405313596，数据集总大小：7001562024 - 配置名称：embedding_multi-qa-mpnet-base-dot-v1 特征： - 唯一标识符（uid）：数据类型为64位整数（int64） - embedding_multi-qa-mpnet-base-dot-v1：32位浮点数序列数据集划分详情： - 训练集（train）：字节数6821379324，样本量2211861 - 验证集（validation）：字节数89226288，样本量28932 - 测试集（test）：字节数90956412，样本量29493 下载大小：8405286790，数据集总大小：7001562024 --- # "pubmed-200k-rct"数据集卡片 [更多信息请参阅](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

pietrolesci

原始信息汇总

数据集概述

配置信息

默认配置

配置名称: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

嵌入配置

配置名称: embedding_all-MiniLM-L12-v2
数据文件路径:
- 训练集: embedding_all-MiniLM-L12-v2/train-*
- 验证集: embedding_all-MiniLM-L12-v2/validation-*
- 测试集: embedding_all-MiniLM-L12-v2/test-*
配置名称: embedding_all-mpnet-base-v2
数据文件路径:
- 训练集: embedding_all-mpnet-base-v2/train-*
- 验证集: embedding_all-mpnet-base-v2/validation-*
- 测试集: embedding_all-mpnet-base-v2/test-*
配置名称: embedding_multi-qa-mpnet-base-dot-v1
数据文件路径:
- 训练集: embedding_multi-qa-mpnet-base-dot-v1/train-*
- 验证集: embedding_multi-qa-mpnet-base-dot-v1/validation-*
- 测试集: embedding_multi-qa-mpnet-base-dot-v1/test-*

数据集信息

默认配置

特征:
- labels: 类别标签，包括 BACKGROUND, CONCLUSIONS, METHODS, OBJECTIVE, RESULTS
- text: 字符串类型
- uid: 64位整数类型
分割:
- 训练集: 379382835 字节, 2211861 样本
- 验证集: 4994899 字节, 28932 样本
- 测试集: 5026344 字节, 29493 样本
下载大小: 209039426 字节
数据集大小: 389404078 字节

嵌入配置

配置名称: embedding_all-MiniLM-L12-v2
特征:
- uid: 64位整数类型
- embedding_all-MiniLM-L12-v2: 浮点数序列
分割:
- 训练集: 3423960828 字节, 2211861 样本
- 验证集: 44786736 字节, 28932 样本
- 测试集: 45655164 字节, 29493 样本
下载大小: 4916495311 字节
数据集大小: 3514402728 字节
配置名称: embedding_all-mpnet-base-v2
特征:
- uid: 64位整数类型
- embedding_all-mpnet-base-v2: 浮点数序列
分割:
- 训练集: 6821379324 字节, 2211861 样本
- 验证集: 89226288 字节, 28932 样本
- 测试集: 90956412 字节, 29493 样本
下载大小: 8405313596 字节
数据集大小: 7001562024 字节
配置名称: embedding_multi-qa-mpnet-base-dot-v1
特征:
- uid: 64位整数类型
- embedding_multi-qa-mpnet-base-dot-v1: 浮点数序列
分割:
- 训练集: 6821379324 字节, 2211861 样本
- 验证集: 89226288 字节, 28932 样本
- 测试集: 90956412 字节, 29493 样本
下载大小: 8405286790 字节
数据集大小: 7001562024 字节

搜集汇总

数据集介绍

构建方式

在生物医学文献挖掘领域，系统化整理随机对照试验（RCT）摘要对于提升信息检索与知识发现效率至关重要。pubmed-200k-rct数据集源自PubMed数据库，通过自动化流程从海量RCT文献中抽取摘要文本，并依据结构化科学论文的章节逻辑，为每个句子标注了背景、目标、方法、结果与结论五类标签。该构建过程确保了数据的大规模覆盖与标注一致性，为后续的文本分类与序列标注任务奠定了坚实基础。

特点

该数据集的核心特征在于其规模宏大且标注精细，包含超过200万条句子实例，每条均附有明确的章节类别标签，涵盖了生物医学RCT研究的完整叙事结构。此外，数据集提供了多种预计算的句子嵌入版本，如all-MiniLM-L12-v2与all-mpnet-base-v2等，这些嵌入表示由先进的语言模型生成，可直接用于下游的语义相似度计算或迁移学习任务，显著降低了特征工程的计算负担。

使用方法

研究者可利用该数据集进行多类自然语言处理实验，例如文本分类或序列标注，以自动识别学术摘要中的逻辑组成部分。数据集已预先划分为训练、验证与测试子集，支持标准的机器学习工作流程。用户可选择原始文本配置进行端到端模型训练，或直接使用预嵌入配置加速实验进程，通过对比不同嵌入表示的效果，优化模型在生物医学文本理解任务中的性能。

背景与挑战

背景概述

在生物医学文献信息爆炸式增长的背景下，高效、精准地提取结构化知识成为自然语言处理领域的核心诉求。pubmed-200k-rct数据集应运而生，专注于对PubMed数据库中随机对照试验（RCT）文献的文本进行结构化分类。该数据集由研究人员pietrolesci构建并开源，旨在将冗长的学术摘要自动划分为背景、目的、方法、结果和结论五个标准章节，从而为下游的文献挖掘、证据合成及知识发现任务提供高质量的标注语料。其大规模、细粒度的标注体系，显著推动了生物医学文本挖掘领域向更深层次的语义理解与自动化处理迈进。

当前挑战

该数据集致力于解决生物医学文本的结构化分类挑战，其核心难点在于医学文本的专业性极强，术语密集且句式复杂，要求模型具备深度的领域知识理解能力。在构建过程中，挑战主要源于大规模高质量标注的获取。从海量PubMed文献中筛选出符合标准的RCT摘要，并确保章节划分的准确性与一致性，需要耗费巨大的人工校验成本。此外，医学研究的表述范式多样，同一语义内容可能以不同句式呈现，这对模型的泛化与鲁棒性提出了严峻考验。

常用场景

经典使用场景

在生物医学文献挖掘领域，PubMed-200k-RCT数据集常被用于结构化摘要的自动分类任务。该数据集包含超过20万篇随机对照试验摘要，每篇摘要的句子被标注为背景、目的、方法、结果和结论五个类别。研究者利用这一标注体系，训练深度学习模型识别学术文本的逻辑结构，从而提升文献检索与信息抽取的效率。通过序列标注或文本分类方法，模型能够自动解析摘要的组成部分，为大规模文献分析提供基础支持。

实际应用

在实际应用中，该数据集支撑了智能文献综述系统的开发。医药企业利用基于该数据集训练的模型，快速筛选临床试验摘要，识别研究设计与关键结论，加速药物研发决策。学术平台集成此类技术，为用户提供结构化摘要浏览，帮助临床医生高效获取证据。此外，在科学计量分析中，模型可自动提取研究要素，辅助趋势预测与知识图谱构建。

衍生相关工作

围绕该数据集衍生了多项经典研究工作。例如，基于注意力机制的序列标注模型被广泛用于句子分类，提升了结构化摘要生成的准确性。后续研究进一步扩展了多标签分类与跨领域迁移学习，将模型应用于其他医学文献类型。同时，该数据集促进了预训练语言模型在生物医学领域的适配，催生了如BioBERT等专项模型的优化与评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集