PubMed RCT (PubMed 200k RCT)

Name: PubMed RCT (PubMed 200k RCT)
Creator: OpenDataLab
Published: 2026-05-24 05:30:10
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/PubMed_RCT

下载链接

链接失效反馈

官方服务：

资源简介：

PubMed 200k RCT 是基于 PubMed 的用于顺序句子分类的新数据集。该数据集由大约 200,000 个随机对照试验摘要组成，总计 230 万个句子。每个摘要的每个句子都使用以下类别之一标记其在摘要中的角色：背景、目标、方法、结果或结论。发布此数据集的目的是双重的。首先，用于顺序短文本分类（即对出现在序列中的短文本进行分类）的大多数数据集都很小：作者希望发布一个新的大型数据集将有助于为这项任务开发更准确的算法。其次，从应用的角度来看，研究人员需要更好的工具来有效地浏览文献。自动对摘要中的每个句子进行分类将有助于研究人员更有效地阅读摘要，尤其是在摘要可能很长的领域，例如医学领域。来源：GitHub

PubMed 200k RCT is a novel PubMed-based dataset for sequential sentence classification. This dataset comprises approximately 200,000 randomized controlled trial (RCT) abstracts, totaling 2.3 million sentences. Each sentence in every abstract is annotated with one of the following categories to denote its functional role in the abstract: BACKGROUND, OBJECTIVE, METHODS, RESULTS, or CONCLUSIONS. The dataset is released for two core purposes. First, most existing datasets for sequential short text classification (i.e., classifying short texts appearing in sequential order) are relatively small in scale. The authors intend that releasing this new large-scale dataset will facilitate the development of more accurate algorithms for this task. Second, from an applied standpoint, researchers need better tools to efficiently browse scientific literature. Automatically classifying each sentence in an abstract can help researchers read abstracts more effectively, particularly in fields where abstracts can be lengthy, such as medicine. Source: GitHub

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍

背景与挑战

背景概述

PubMed RCT (PubMed 200k RCT) 是一个大型医学文本数据集，包含约20万篇随机对照试验摘要，总计230万个句子，每个句子都标注了背景、目标、方法、结果或结论等角色类别。该数据集专为顺序句子分类任务设计，旨在推动自然语言处理算法在医学领域的应用，帮助研究人员更高效地阅读和浏览文献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集