medical_abstracts

Hugging Face2026-05-12 更新2026-05-13 收录

下载链接：

https://huggingface.co/datasets/Lamurias/medical_abstracts

下载链接

链接失效反馈

官方服务：

资源简介：

Medical Abstracts Text Classification Dataset 是一个用于文本分类任务的医学领域数据集。该数据集包含从医学文献中收集的摘要文本，每篇摘要都被标注为五种不同的患者疾病状况类别之一。数据集由两个主要部分构成：1) 默认数据集（default 配置），包含 condition_label（整数形式的疾病类别标签）和 medical_abstract（医学摘要文本）两个字段；2) 标签映射数据集（labels 配置），包含 condition_label 和对应的 condition_name（疾病类别的文本名称），用于解释数字标签的含义。具体疾病类别包括：肿瘤、消化系统疾病、神经系统疾病、心血管疾病和一般病理状况。数据总规模为 14,438 个样本，其中训练集包含 11,550 个样本，主测试集包含 2,888 个样本。此外，数据集还提供了 12 个独立的测试子集（test_0 至 test_11），每个子集包含 240 个样本，可能用于交叉验证或特定的评估设置。该数据集旨在支持自然语言处理研究，特别是用于评估和比较无监督文本分类方法，如零样本分类和基于相似性的分类方法。

The Medical Abstracts Text Classification Dataset is a medical domain dataset for text classification tasks. It contains abstract texts collected from medical literature, with each abstract annotated as one of five different patient disease condition categories. The dataset consists of two main parts: 1) the default dataset (default configuration), which includes condition_label (integer disease category label) and medical_abstract (medical abstract text) fields; 2) the label mapping dataset (labels configuration), containing condition_label and corresponding condition_name (text name of the disease category) to explain the meaning of numeric labels. Specific disease categories include: tumor, digestive system diseases, neurological diseases, cardiovascular diseases, and general pathological conditions. The total data size is 14,438 samples, with the training set containing 11,550 samples and the main test set containing 2,888 samples. Additionally, the dataset provides 12 independent test subsets (test_0 to test_11), each containing 240 samples, possibly for cross-validation or specific evaluation settings. The dataset aims to support natural language processing research, particularly for evaluating and comparing unsupervised text classification methods, such as zero-shot classification and similarity-based classification methods.

创建时间：

2026-05-08

原始信息汇总

数据集概述

Medical Abstracts Text Classification Dataset 是一个医疗摘要文本分类数据集，包含5种不同患者状况类别的医学摘要文本，可用于文本分类任务。

数据集配置

default 子集：包含训练集和测试集，使用数字类别标签。
labels 子集：包含数字类别标签对应的文本类别名称。

数据特征

condition_label：整数类型，表示类别标签。
medical_abstract：字符串类型，表示医学摘要文本。
condition_name（仅 labels 子集）：字符串类型，表示类别名称。

数据规模

总样本数：14,438 条
训练集：11,550 条
测试集：2,888 条（包含 12 个分片，每个分片 240 条）
下载大小：约 11.58 MB
数据集总大小：约 21.54 MB

类别分布

类别名称	训练集样本数	测试集样本数	总计
Neoplasms	2,530	633	3,163
Digestive system diseases	1,195	299	1,494
Nervous system diseases	1,540	385	1,925
Cardiovascular diseases	2,441	610	3,051
General pathological conditions	3,844	961	4,805
总计	11,550	2,888	14,438

语言与任务

语言：英语（en）
任务类型：文本分类（text-classification）
许可证：Creative Commons Attribution-ShareAlike 3.0 (cc-by-sa-3.0)

标签配置

labels 子集包含5个类别，其数字标签与文本名称的对应关系训练集包含5条记录。

引用信息

该数据集在论文《Evaluating Unsupervised Text Classification: Zero-shot and Similarity-based Approaches》中创建，发表于 NLPIR 2022。引用时请使用提供的 BibTeX 条目。

论文链接：https://doi.org/10.1145/3582768.3582795
代码仓库：https://github.com/sebischair/Medical-Abstracts-TC-Corpus

搜集汇总

数据集介绍

构建方式

该数据集源自学术研究领域，旨在支持无监督文本分类方法的评估。构建过程中，研究者从医学文献中提取摘要，并依据国际疾病分类标准，将其划分为五个患者状况类别，包括肿瘤、消化系统疾病、神经系统疾病、心血管疾病及一般病理状态。数据经过专业标注，形成包含11550个训练样本和2888个测试样本的语料库。此外，为便于模型验证，测试集被进一步细分为12个子集，每个子集包含240个样本，以支持更细致的性能分析。标签子集则提供了数字类别标签与类别名称的对应关系。

特点

该数据集具有鲜明的医学领域特性，其文本内容均为专业医学文献摘要，语言规范且术语密集，适合用于训练和评估文本分类模型在特定垂直领域的表现。数据集规模适中，总样本量达14438条，类别分布相对均衡，其中一般病理状态类别样本最多（4805条），消化系统疾病类别样本最少（1494条），这一分布特性使得模型在学习不同类别特征时面临适度的挑战。

使用方法

该数据集通过HuggingFace平台发布，采用典型的文本分类任务格式。用户可通过HuggingFace的datasets库直接加载，选择'default'配置获取带有数字标签的训练集和测试集，或选择'labels'配置获取类别名称映射。数据集以parquet文件格式存储，支持高效的数据流式加载。研究者和开发者可将其用于微调预训练语言模型、评估零样本分类方法或构建相似性基准模型，使用CC-BY-SA-3.0许可证，引用时需注明原始论文。

背景与挑战

背景概述

医学文本分类是自然语言处理领域的重要研究方向，旨在从海量临床文献中自动提取疾病类别信息。2022年，由慕尼黑工业大学Sebischair团队构建的Medical Abstracts Text Classification Dataset应运而生，该数据集收录了14438篇医学摘要，涵盖肿瘤、消化系统疾病、神经系统疾病、心血管疾病及全身病理状态五大类患者状况。该数据集的核心研究问题聚焦于无监督文本分类方法的性能评估，特别是零样本学习与基于相似性的分类策略在医学领域泛化能力的比较。作为首个系统性对比多种无监督分类方法的基准数据集，它推动了对未知类别文本分类技术边界探索的实证研究，为临床决策支持系统的智能化发展提供了关键语料支撑。

当前挑战

该数据集旨在解决医学领域无监督文本分类的核心挑战：在缺乏标注训练数据的情况下，如何准确识别未预先定义疾病类别的医学摘要。具体而言，零样本方法需克服语义鸿沟问题——医学专业术语表达与通用语义空间映射的偏差；基于相似性的方法则面临文档表征质量差异的难题，传统词袋模型难以捕捉医学文本中多义术语的语境依赖关系。在数据集构建过程中，标注偏差控制构成另一重挑战：五位研究人员基于ICD编码对五类疾病进行人工标注时，需确保不同病种间摘要长度的系统性差异（如肿瘤类摘要较消化系统疾病类平均多30%文本）不会干扰分类器特征学习，最终通过分层抽样策略平衡了训练集与测试集的类间分布差异。

常用场景

经典使用场景

在自然语言处理与生物医学文本挖掘的交叉领域，medical_abstracts数据集最经典的用途在于构建和评估文本分类模型。该数据集包含五类患者病情（肿瘤、消化系统疾病、神经系统疾病、心血管疾病及一般病理状态）的医学摘要文本，每一类均配有清晰的类别标签。研究者可借此训练有监督或半监督的分类器，以自动识别和区分不同临床条件下的病历摘要。该数据集因其细粒度的疾病类别划分和适中的规模，成为医学文本分类任务中不可或缺的基准资源。

实际应用

在实际应用中，该数据集可用于开发辅助临床决策的智能筛选工具，例如自动将新录入的患者摘要归类至合适的疾病类别，从而减轻医疗工作者的文书负担。此外，在药物不良反应监测和流行病学趋势分析等领域，基于该数据集训练的分类器能够从海量科研文献或电子健康记录中快速提取关键病理信息，识别新兴的健康威胁。其还能为医学知识图谱构建、文献检索排序以及远程医疗中的病历自动分诊系统提供基础模型支持。

衍生相关工作

围绕medical_abstracts数据集，衍生了一系列具有影响力的研究工作。其中最为经典的是Schopf等人提出的Lbl2TransformerVec方法，该方法通过融合Transformer模型的上下文嵌入与类别标签的语义表征，在无监督文本分类中取得了超越当时最先进水平的性能。此外，研究者还基于该数据集系统评估了SimCSE和SBERT等预训练语言模型在不同分类策略下的表现，揭示了嵌入质量对相似度分类结果的关键影响。这些工作共同丰富了文本分类的算法体系，并为医学领域的大规模语言模型应用提供了实验依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集