five

community-datasets/ohsumed

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/ohsumed
下载链接
链接失效反馈
官方服务:
资源简介:
OHSUMED测试集是从MEDLINE在线医学信息数据库中提取的348,566条参考文献集合,涵盖了1987年至1991年间270种医学期刊的标题和/或摘要。数据集包含的字段有标题、摘要、MeSH索引术语、作者、来源和出版物类型。美国国家医学图书馆同意将这些参考文献用于实验,但需遵守以下条件:1. 数据不得用于任何非实验性的临床、图书馆或其他环境;2. 任何使用数据的人类用户必须明确被告知数据不完整且已过时。

The OHSUMED test set is a corpus of 348,566 references extracted from the MEDLINE online medical information database, encompassing titles and/or abstracts from 270 medical journals published between 1987 and 1991. The dataset comprises the following fields: title, abstract, MeSH indexing terms, authors, source, and publication type. The U.S. National Library of Medicine has granted permission for the use of these references solely for experimental research, subject to the following conditions: 1. The data may not be utilized in any non-experimental clinical, library, or other settings; 2. Any human user of the data must be explicitly informed that the data is incomplete and outdated.
提供机构:
community-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Ohsumed
  • 标注创建者: 专家生成
  • 语言创建者: 众包
  • 语言: 英语
  • 许可证: CC BY-NC 4.0
  • 多语言性: 单语种
  • 大小类别: 100K<n<1M
  • 源数据集: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多标签分类

数据集结构

特征

  • seq_id: 序列ID,数据类型为int64
  • medline_ui: MEDLINE标识符,数据类型为int64
  • mesh_terms: MeSH术语,数据类型为string
  • title: 标题,数据类型为string
  • publication_type: 出版类型,数据类型为string
  • abstract: 摘要,数据类型为string
  • author: 作者,数据类型为string
  • source: 来源,数据类型为string

数据分割

  • 训练集:
    • 字节数: 60117860
    • 样本数: 54709
  • 测试集:
    • 字节数: 338533901
    • 样本数: 293855

数据集大小

  • 下载大小: 139454017
  • 数据集大小: 398651761

数据集创建

数据来源

  • 初始数据收集和规范化: 需要更多信息
  • 源语言生产者: 新手医生使用MEDLINE生成查询

标注

  • 标注过程: 每个查询由四名搜索者(两名有经验的医生和两名医学图书馆员)复制,结果由不同的医生评估相关性
  • 标注者: 医生和医学图书馆员

个人和敏感信息

  • 训练、测试或查询文件中不包含个人身份信息(PII)

使用数据的注意事项

  • 数据集的社会影响: 需要更多信息
  • 偏见的讨论: 需要更多信息
  • 其他已知限制: 数据集仅用于研究目的

附加信息

  • 数据集策展人: Aakash Gupta
  • 许可证信息: CC BY-NC 4.0
  • 引用信息:
    • Hersh WR, Buckley C, Leone TJ, Hickam DH, OHSUMED: An interactive retrieval evaluation and new large test collection for research, Proceedings of the 17th Annual ACM SIGIR Conference, 1994, 192-201.
    • Hersh WR, Hickam DH, Use of a multi-application computer workstation in a clinical setting, Bulletin of the Medical Library Association, 1994, 82: 382-389.
  • 贡献者: @skyprince999
搜集汇总
数据集介绍
main_image_url
构建方式
OHSUMED数据集的构建基于MEDLINE数据库中的348,566条医学文献引用,涵盖了1987至1991年间270种医学期刊的标题和/或摘要。数据集的构建由William Hersh及其同事完成,旨在评估MEDLINE在临床环境中的使用情况。数据集包含了标题、摘要、MeSH索引术语、作者、来源和出版类型等字段,并通过专家生成的标注和众包方式进行语言处理,确保了数据的高质量和多样性。
使用方法
OHSUMED数据集可用于多标签文本分类任务,研究者可以通过加载数据集的训练和测试部分进行模型训练和评估。数据集提供了详细的字段信息,包括标题、摘要、MeSH术语等,便于进行特征提取和模型输入。使用时需注意数据集的许可协议,确保仅用于非商业研究目的,并遵守数据使用的相关限制条件。
背景与挑战
背景概述
OHSUMED数据集是由William Hersh及其同事于1994年创建的,旨在评估医学信息检索系统的性能。该数据集包含了从MEDLINE数据库中提取的348,566条医学文献记录,涵盖了1987年至1991年间的270种医学期刊的标题和/或摘要。OHSUMED数据集的核心研究问题是如何在临床环境中有效利用MEDLINE数据库进行信息检索,特别是通过多标签分类任务来评估文本分类模型的性能。该数据集的发布对医学信息检索领域产生了深远影响,为研究人员提供了一个标准化的测试平台,以评估和比较不同检索系统的有效性。
当前挑战
OHSUMED数据集在构建过程中面临了多个挑战。首先,数据集的来源是MEDLINE数据库,其中部分文献的摘要信息不完整或缺失,这增加了数据预处理的复杂性。其次,数据集的多标签分类任务要求模型能够准确识别和分类多个MeSH术语,这对模型的复杂性和计算资源提出了较高要求。此外,数据集的标注过程涉及多个医学专家和图书馆员的协作,确保标注的一致性和准确性是一个重要挑战。最后,数据集的使用受到严格的限制,仅限于实验和研究目的,这限制了其在实际临床环境中的应用。
常用场景
经典使用场景
Ohsumed数据集在医学信息检索领域中被广泛应用于文本分类任务,尤其是多标签分类。其经典使用场景包括利用该数据集训练和评估模型,以自动分类医学文献中的标题和摘要,从而帮助研究人员快速筛选与特定医学主题相关的文献。
解决学术问题
Ohsumed数据集解决了医学信息检索中的关键学术问题,如如何高效地从大量医学文献中提取和分类相关信息。通过提供结构化的医学文献数据,该数据集为研究者提供了一个标准化的测试平台,促进了医学信息检索技术的进步,特别是在自动分类和信息过滤方面。
实际应用
在实际应用中,Ohsumed数据集被用于开发和优化医学文献检索系统,这些系统能够帮助医生和研究人员快速找到与其研究或临床需求相关的文献。此外,该数据集还被用于训练自然语言处理模型,以提高医学文本的自动分类和摘要生成能力,从而提升医学信息处理的效率和准确性。
数据集最近研究
最新研究方向
在医学信息检索领域,Ohsumed数据集因其丰富的医学文献资源和多标签分类任务而备受关注。最新研究方向主要集中在利用深度学习技术提升文本分类的准确性和效率,尤其是在处理多标签分类任务时,如何有效捕捉医学文本中的复杂语义关系成为研究热点。此外,随着自然语言处理技术的进步,研究者们也在探索如何将预训练语言模型应用于Ohsumed数据集,以提高模型在医学文本分类任务中的表现。这些研究不仅推动了医学信息检索技术的发展,也为临床决策支持系统提供了更为精准的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作