Ohsumed

Name: Ohsumed
Creator: OpenDataLab
Published: 2026-05-17 04:30:10
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Ohsumed

下载链接

链接失效反馈

官方服务：

资源简介：

Ohsumed 包括来自 1991 年 MeSH 类别的医学摘要。在 [Joachims, 1997] 中使用了前 20,000 个文档，分为 10,000 个用于训练和 10,000 个用于测试。具体任务是对 23 种心血管疾病类别进行分类。选择此类类别子集后，唯一摘要数变为 13,929（6,286 用于训练，7,643 用于测试）。由于当前的计算机可以轻松管理大量文档，因此我们提供了 1991 年包含的 50,216 份医学摘要中的所有 34,389 份心血管疾病摘要。

The Ohsumed corpus contains medical abstracts from the 1991 MeSH categories. The first 20,000 documents were utilized in [Joachims, 1997], which were partitioned into 10,000 training samples and 10,000 testing samples. The specific downstream task is classification across 23 cardiovascular disease categories. After selecting a subset of these categories, the number of unique abstracts became 13,929, with 6,286 for training and 7,643 for testing. Given that contemporary computers can readily handle large volumes of documents, we now provide all 34,389 cardiovascular disease abstracts from the total 50,216 medical abstracts included in the 1991 Ohsumed corpus.

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍

构建方式

Ohsumed数据集源自于MEDLINE数据库，由美国国家医学图书馆于1994年发布。该数据集精心挑选了1987年至1991年间收录的23类医学文献摘要，涵盖了从心血管疾病到肿瘤学等多个医学领域。构建过程中，每篇摘要均经过专业医学编辑的严格筛选与分类，确保了数据的高质量和专业性。

特点

Ohsumed数据集以其丰富的医学信息和多样的主题分类著称。该数据集不仅包含了23个不同的医学主题类别，还提供了详细的摘要文本，为研究者提供了深入分析医学文献的机会。此外，Ohsumed数据集的标注准确性高，适用于自然语言处理和信息检索领域的多种研究任务。

使用方法

Ohsumed数据集广泛应用于医学信息检索、文本分类和自然语言处理等领域。研究者可以利用该数据集进行文本分类模型的训练与评估，探索不同医学主题的特征提取方法。同时，Ohsumed数据集也可用于开发和测试医学文献检索系统，提升检索效率和准确性。

背景与挑战

背景概述

Ohsumed数据集，由美国国立医学图书馆（NLM）于1994年创建，是生物医学文本分类领域的先驱。该数据集包含了从MEDLINE数据库中提取的23类医学文献摘要，涵盖了心脏病、癌症等多种疾病。Ohsumed的推出，极大地推动了自然语言处理（NLP）在医学领域的应用，为研究人员提供了一个标准化的测试平台，促进了文本分类、信息检索等技术的快速发展。

当前挑战

Ohsumed数据集在构建过程中面临了多重挑战。首先，医学文本的复杂性和专业性要求高精度的语义理解，这对传统的文本分类算法提出了严峻考验。其次，数据集的类别分布不均衡，某些疾病类别的样本数量远少于其他类别，导致模型训练时容易出现偏差。此外，随着医学知识的不断更新，数据集的时效性也成为一大挑战，需要定期更新以保持其研究价值。

发展历史

创建时间与更新

Ohsumed数据集创建于1994年，由美国国家医学图书馆（NLM）发布，旨在支持医学文献的自动分类研究。该数据集自创建以来，未有官方的更新记录，但其经典地位在医学信息学领域中依然稳固。

重要里程碑

Ohsumed数据集的发布标志着医学信息学领域在文本分类和信息检索方面的重要突破。它首次提供了大规模的医学文献数据，为研究人员提供了丰富的实验材料。Ohsumed数据集的23个类别覆盖了广泛的医学主题，极大地推动了相关算法的开发和评估。此外，Ohsumed数据集在1998年成为TREC（文本检索会议）的一部分，进一步提升了其在学术界的影响力。

当前发展情况

尽管Ohsumed数据集已有多年历史，但其对医学信息学领域的贡献依然显著。它不仅为早期的文本分类算法提供了基准测试数据，还为后续的医学文本挖掘研究奠定了基础。随着深度学习和自然语言处理技术的发展，Ohsumed数据集的原始数据和分类任务被重新审视，以验证新方法的有效性。此外，Ohsumed数据集的经典地位也促使研究人员开发更多样化和复杂的医学文本数据集，以适应现代研究需求。

发展历程

Ohsumed数据集首次发布，作为MEDLINE数据库的一个子集，用于医学文献的分类和检索研究。
1987年
Ohsumed数据集首次应用于文本分类任务，成为信息检索领域的重要基准数据集。
1992年
Ohsumed数据集被广泛用于机器学习和自然语言处理的研究，特别是在医学文本分类和信息检索方面。
1994年
Ohsumed数据集的扩展版本发布，增加了更多的医学文献记录，进一步丰富了数据集的内容和应用范围。
2000年
Ohsumed数据集在深度学习和神经网络领域的应用逐渐增多，成为研究医学文本自动分类和信息提取的重要资源。
2010年

常用场景

经典使用场景

Ohsumed数据集在医学信息检索领域中具有经典地位，主要用于评估和改进文本分类算法。该数据集包含了从MEDLINE数据库中提取的23类医学文献摘要，涵盖了从心血管疾病到肿瘤学等多个医学子领域。研究者常利用Ohsumed数据集进行文本分类实验，以验证其提出的新算法在医学文本分类任务中的有效性。

实际应用

在实际应用中，Ohsumed数据集被广泛用于开发和优化医学文献检索系统。例如，医院和研究机构可以利用基于Ohsumed训练的分类模型，快速筛选出与特定疾病或治疗相关的文献，从而加速临床决策和科研进展。此外，Ohsumed还支持医学教育领域，帮助学生和研究人员更有效地获取和整理医学信息。

衍生相关工作

Ohsumed数据集的发布催生了一系列相关研究工作，特别是在文本分类和信息检索领域。例如，许多研究者基于Ohsumed数据集开发了新的特征提取方法和分类模型，进一步提升了医学文本分类的准确性和效率。此外，Ohsumed还启发了其他领域，如生物信息学和公共卫生，推动了跨学科的数据集构建和算法研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集