five

Ohsumed

收藏
arXiv2025-09-30 收录
下载链接:
http://disi.unitn.it/moschitti/corpora.htm
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从MEDLINE中精选出的一系列医学摘要,主要关注心血管疾病领域。为了形成单一标签分类,排除了那些具有多个标签的文件。在规模上,该数据集从20,000篇摘要中筛选出13,929篇文档,其中3,357篇用于训练,4,043篇用于测试。该数据集的任务是对文本进行分类。

This dataset is a curated collection of medical abstracts selected from MEDLINE, focusing primarily on the field of cardiovascular diseases. To enable single-label classification, documents with multiple assigned labels were excluded. In terms of scale, 13,929 documents were screened out from 20,000 abstracts, among which 3,357 were allocated for training and 4,043 for testing. The task of this dataset is text classification.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Ohsumed是一个医学文本分类数据集,包含1991年的医学摘要,专注于心血管疾病类别。它包含34,389篇心血管疾病摘要(源自50,216篇总摘要),常用于文本分类研究,早期版本使用20,000篇摘要进行训练和测试分割。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作