ohsumed-single

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/joao-luz/ohsumed-single

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于Ohsumed数据集改编的数据集，移除了原数据集中属于多个疾病类别的记录。数据集分为训练集和测试集，每个记录只包含单一疾病类别的信息。它包含了文本和标签两个特征，其中标签特征将数值标签映射到具体的疾病名称。数据集共有23个疾病类别，如细菌感染和真菌病、病毒性疾病、寄生虫病等。

创建时间：

2025-08-09

原始信息汇总

数据集概述：joao-luz/ohsumed-single

数据集基本信息

来源：基于Ohsumed数据集的改编版本，移除了原始语料中属于多个疾病类别的记录。
原始数据来源：https://github.com/yao8839836/text_gcn
类别标签参考：https://github.com/Evgeneus/screening-classification-datasets/blob/master/ohsumed-based-screening-datasets/README.md

数据集结构

特征：
- text：文本内容，数据类型为字符串。
- label：类别标签，包含23个疾病类别。
数据划分：
- 训练集：
  - 样本数量：3,357
  - 数据大小：4,302,749字节
- 测试集：
  - 样本数量：4,043
  - 数据大小：5,207,699字节
总下载大小：5,084,973字节
总数据集大小：9,510,448字节

类别标签详情

标签	原始类别	名称
0	C01	Bacterial Infections and Mycoses
1	C02	Virus Diseases
2	C03	Parasitic Diseases
3	C04	Neoplasms
4	C05	Musculoskeletal Diseases
5	C06	Digestive System Diseases
6	C07	Stomatognathic Diseases
7	C08	Respiratory Tract Diseases
8	C09	Otorhinolaryngologic Diseases
9	C10	Nervous System Diseases
10	C11	Eye Diseases
11	C12	Urologic and Male Genital Diseases
12	C13	Female Genital Diseases and Pregnancy Complications
13	C14	Cardiovascular Diseases
14	C15	Hemic and Lymphatic Diseases
15	C16	Neonatal Diseases and Abnormalities
16	C17	Skin and Connective Tissue Diseases
17	C18	Nutritional and Metabolic Diseases
18	C19	Endocrine Diseases
19	C20	Immunologic Diseases
20	C21	Disorders of Environmental Origin
21	C22	Animal Diseases
22	C23	Pathological Conditions, Signs and Symptoms

引用信息

bib @InProceedings{10.1007/BFb0026683, author="Joachims, Thorsten", editor="N{e}dellec, Claire and Rouveirol, C{e}line", title="Text categorization with Support Vector Machines: Learning with many relevant features", booktitle="Machine Learning: ECML-98", year="1998", publisher="Springer Berlin Heidelberg", address="Berlin, Heidelberg", pages="137--142", abstract="This paper explores the use of Support Vector Machines (SVMs) for learning text classifiers from examples. It analyzes the particular properties of learning with text data and identifies why SVMs are appropriate for this task. Empirical results support the theoretical findings. SVMs achieve substantial improvements over the currently best performing methods and behave robustly over a variety of different learning tasks. Furthermore they are fully automatic, eliminating the need for manual parameter tuning.", isbn="978-3-540-69781-7" }

搜集汇总

数据集介绍

构建方式

在医学文本分类研究领域，ohsumed-single数据集是基于经典Ohsumed语料库的优化版本。该数据集通过筛选原始语料中仅属于单一疾病类别的记录，确保了样本标签的排他性。构建过程中严格遵循原始数据集的训练集与测试集划分标准，同时将数值标签转换为包含23类医学专业术语的ClassLabel格式，完整保留了原始分类体系的结构特征。

特点

作为医学文本分类的基准数据集，ohsumed-single最显著的特点是涵盖23个精细划分的临床疾病类别，从细菌感染到环境源性疾病等专业领域均有涉及。每个样本均包含标准化的医学文本描述与精确的单标签标注，这种设计既反映了真实临床场景的复杂性，又保证了分类任务的明确性。数据集包含7400个样本，在规模与专业性之间取得了良好平衡。

使用方法

该数据集适用于监督学习框架下的多类文本分类任务，研究者可通过加载标准化的训练集与测试集进行模型开发与评估。使用时应特别注意医学专业术语的处理，建议结合领域知识进行特征工程。数据集的ClassLabel设计可直接兼容主流机器学习框架的标签处理模块，原始文献提供的SVM基准性能可作为方法对比的参考标准。

背景与挑战

背景概述

Ohsumed-single数据集源于1998年由Thorsten Joachims提出的经典医学文本分类基准数据集Ohsumed，该数据集最初用于支持向量机在文本分类任务中的性能验证。作为医学文献分类领域的重要资源，Ohsumed收录了来自医学主题词表（MeSH）的23类疾病文献摘要。本数据集是原始语料的精炼版本，通过移除多疾病类别的记录形成单标签分类任务，由Yao等学者在文本图卷积网络研究中进行了重构。该数据集的建立推动了医学自然语言处理领域的发展，为疾病自动分类系统提供了关键评估基准。

当前挑战

Ohsumed-single数据集面临双重挑战。在领域问题层面，医学文本特有的专业术语密集、语义复杂度高以及类别间边界模糊（如免疫性疾病与营养代谢疾病的症状重叠）对分类模型提出严峻考验。就构建过程而言，原始数据中存在的多标签样本剔除导致信息损失，且不同疾病类别的样本分布不均衡（如心血管疾病样本显著多于环境源性疾病），这种偏差会影响模型泛化能力。此外，医学文献的时效性特征使得基于历史数据训练的模型需要持续更新以适应新出现的疾病分类体系。

常用场景

经典使用场景

在医学信息检索领域，ohsumed-single数据集作为经典的文本分类基准，被广泛用于评估机器学习模型在医学文献分类任务中的性能。其单标签特性使得研究者能够专注于单一疾病类别的精确识别，避免了多标签分类带来的复杂性。该数据集常被用于支持向量机、神经网络等算法的对比实验，为医学文本分类研究提供标准化评估平台。

衍生相关工作

该数据集催生了诸多经典研究，如Joachims首次将支持向量机应用于文本分类的开创性工作。后续研究基于此发展了图卷积网络在医学文本处理中的应用，推动了TextGCN等创新模型的诞生。在迁移学习领域，该数据集常被用作预训练模型的微调基准，促进了BERT等模型在医学NLP任务中的适应性研究。

数据集最近研究