Ohsumed
收藏arXiv2025-09-30 收录
下载链接:
http://disi.unitn.it/moschitti/corpora.htm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从MEDLINE中精选出的一系列医学摘要,主要关注心血管疾病领域。为了形成单一标签分类,排除了那些具有多个标签的文件。在规模上,该数据集从20,000篇摘要中筛选出13,929篇文档,其中3,357篇用于训练,4,043篇用于测试。该数据集的任务是对文本进行分类。
搜集汇总
数据集介绍

背景与挑战
背景概述
Ohsumed是一个医学文本分类数据集,包含1991年的医学摘要,专注于心血管疾病类别。它包含34,389篇心血管疾病摘要(源自50,216篇总摘要),常用于文本分类研究,早期版本使用20,000篇摘要进行训练和测试分割。
以上内容由遇见数据集搜集并总结生成



