Ohsumed
收藏arXiv2025-09-30 收录
下载链接:
http://disi.unitn.it/moschitti/corpora.htm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从MEDLINE中精选出的一系列医学摘要,主要关注心血管疾病领域。为了形成单一标签分类,排除了那些具有多个标签的文件。在规模上,该数据集从20,000篇摘要中筛选出13,929篇文档,其中3,357篇用于训练,4,043篇用于测试。该数据集的任务是对文本进行分类。
This dataset is a curated collection of medical abstracts selected from MEDLINE, focusing primarily on the field of cardiovascular diseases. To enable single-label classification, documents with multiple assigned labels were excluded. In terms of scale, 13,929 documents were screened out from 20,000 abstracts, among which 3,357 were allocated for training and 4,043 for testing. The task of this dataset is text classification.
搜集汇总
数据集介绍

背景与挑战
背景概述
Ohsumed是一个医学文本分类数据集,包含1991年的医学摘要,专注于心血管疾病类别。它包含34,389篇心血管疾病摘要(源自50,216篇总摘要),常用于文本分类研究,早期版本使用20,000篇摘要进行训练和测试分割。
以上内容由遇见数据集搜集并总结生成



