five

ohsumed-single

收藏
Hugging Face2025-08-09 更新2025-08-10 收录
下载链接:
https://huggingface.co/datasets/joao-luz/ohsumed-single
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于Ohsumed数据集改编的数据集,移除了原数据集中属于多个疾病类别的记录。数据集分为训练集和测试集,每个记录只包含单一疾病类别的信息。它包含了文本和标签两个特征,其中标签特征将数值标签映射到具体的疾病名称。数据集共有23个疾病类别,如细菌感染和真菌病、病毒性疾病、寄生虫病等。
创建时间:
2025-08-09
原始信息汇总

数据集概述:joao-luz/ohsumed-single

数据集基本信息

  • 来源:基于Ohsumed数据集的改编版本,移除了原始语料中属于多个疾病类别的记录。
  • 原始数据来源:https://github.com/yao8839836/text_gcn
  • 类别标签参考:https://github.com/Evgeneus/screening-classification-datasets/blob/master/ohsumed-based-screening-datasets/README.md

数据集结构

  • 特征
    • text:文本内容,数据类型为字符串。
    • label:类别标签,包含23个疾病类别。
  • 数据划分
    • 训练集
      • 样本数量:3,357
      • 数据大小:4,302,749字节
    • 测试集
      • 样本数量:4,043
      • 数据大小:5,207,699字节
  • 总下载大小:5,084,973字节
  • 总数据集大小:9,510,448字节

类别标签详情

标签 原始类别 名称
0 C01 Bacterial Infections and Mycoses
1 C02 Virus Diseases
2 C03 Parasitic Diseases
3 C04 Neoplasms
4 C05 Musculoskeletal Diseases
5 C06 Digestive System Diseases
6 C07 Stomatognathic Diseases
7 C08 Respiratory Tract Diseases
8 C09 Otorhinolaryngologic Diseases
9 C10 Nervous System Diseases
10 C11 Eye Diseases
11 C12 Urologic and Male Genital Diseases
12 C13 Female Genital Diseases and Pregnancy Complications
13 C14 Cardiovascular Diseases
14 C15 Hemic and Lymphatic Diseases
15 C16 Neonatal Diseases and Abnormalities
16 C17 Skin and Connective Tissue Diseases
17 C18 Nutritional and Metabolic Diseases
18 C19 Endocrine Diseases
19 C20 Immunologic Diseases
20 C21 Disorders of Environmental Origin
21 C22 Animal Diseases
22 C23 Pathological Conditions, Signs and Symptoms

引用信息

bib @InProceedings{10.1007/BFb0026683, author="Joachims, Thorsten", editor="N{e}dellec, Claire and Rouveirol, C{e}line", title="Text categorization with Support Vector Machines: Learning with many relevant features", booktitle="Machine Learning: ECML-98", year="1998", publisher="Springer Berlin Heidelberg", address="Berlin, Heidelberg", pages="137--142", abstract="This paper explores the use of Support Vector Machines (SVMs) for learning text classifiers from examples. It analyzes the particular properties of learning with text data and identifies why SVMs are appropriate for this task. Empirical results support the theoretical findings. SVMs achieve substantial improvements over the currently best performing methods and behave robustly over a variety of different learning tasks. Furthermore they are fully automatic, eliminating the need for manual parameter tuning.", isbn="978-3-540-69781-7" }

搜集汇总
数据集介绍
main_image_url
构建方式
在医学文本分类研究领域,ohsumed-single数据集是基于经典Ohsumed语料库的优化版本。该数据集通过筛选原始语料中仅属于单一疾病类别的记录,确保了样本标签的排他性。构建过程中严格遵循原始数据集的训练集与测试集划分标准,同时将数值标签转换为包含23类医学专业术语的ClassLabel格式,完整保留了原始分类体系的结构特征。
特点
作为医学文本分类的基准数据集,ohsumed-single最显著的特点是涵盖23个精细划分的临床疾病类别,从细菌感染到环境源性疾病等专业领域均有涉及。每个样本均包含标准化的医学文本描述与精确的单标签标注,这种设计既反映了真实临床场景的复杂性,又保证了分类任务的明确性。数据集包含7400个样本,在规模与专业性之间取得了良好平衡。
使用方法
该数据集适用于监督学习框架下的多类文本分类任务,研究者可通过加载标准化的训练集与测试集进行模型开发与评估。使用时应特别注意医学专业术语的处理,建议结合领域知识进行特征工程。数据集的ClassLabel设计可直接兼容主流机器学习框架的标签处理模块,原始文献提供的SVM基准性能可作为方法对比的参考标准。
背景与挑战
背景概述
Ohsumed-single数据集源于1998年由Thorsten Joachims提出的经典医学文本分类基准数据集Ohsumed,该数据集最初用于支持向量机在文本分类任务中的性能验证。作为医学文献分类领域的重要资源,Ohsumed收录了来自医学主题词表(MeSH)的23类疾病文献摘要。本数据集是原始语料的精炼版本,通过移除多疾病类别的记录形成单标签分类任务,由Yao等学者在文本图卷积网络研究中进行了重构。该数据集的建立推动了医学自然语言处理领域的发展,为疾病自动分类系统提供了关键评估基准。
当前挑战
Ohsumed-single数据集面临双重挑战。在领域问题层面,医学文本特有的专业术语密集、语义复杂度高以及类别间边界模糊(如免疫性疾病与营养代谢疾病的症状重叠)对分类模型提出严峻考验。就构建过程而言,原始数据中存在的多标签样本剔除导致信息损失,且不同疾病类别的样本分布不均衡(如心血管疾病样本显著多于环境源性疾病),这种偏差会影响模型泛化能力。此外,医学文献的时效性特征使得基于历史数据训练的模型需要持续更新以适应新出现的疾病分类体系。
常用场景
经典使用场景
在医学信息检索领域,ohsumed-single数据集作为经典的文本分类基准,被广泛用于评估机器学习模型在医学文献分类任务中的性能。其单标签特性使得研究者能够专注于单一疾病类别的精确识别,避免了多标签分类带来的复杂性。该数据集常被用于支持向量机、神经网络等算法的对比实验,为医学文本分类研究提供标准化评估平台。
衍生相关工作
该数据集催生了诸多经典研究,如Joachims首次将支持向量机应用于文本分类的开创性工作。后续研究基于此发展了图卷积网络在医学文本处理中的应用,推动了TextGCN等创新模型的诞生。在迁移学习领域,该数据集常被用作预训练模型的微调基准,促进了BERT等模型在医学NLP任务中的适应性研究。
数据集最近研究
最新研究方向
在医学文本分类领域,ohsumed-single数据集因其清晰的疾病类别划分和高质量的标注成为研究热点。近期研究聚焦于利用深度学习模型提升多类别医学文本分类的准确性和泛化能力,特别是在处理类别不平衡问题上展现出显著进展。结合Transformer架构的预训练语言模型,如BERT和BioBERT,在该数据集上的微调实验取得了突破性成果,为自动化医学文献分类提供了可靠的技术支持。与此同时,该数据集在跨模态医学信息检索和智能诊断系统中的辅助作用也受到广泛关注,推动了医学自然语言处理技术的实际应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作