five

KushT/LitCovid_BioCreative

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KushT/LitCovid_BioCreative
下载链接
链接失效反馈
官方服务:
资源简介:
LitCovid数据集是一个用于多标签文档分类任务的数据集,主要用于标注COVID-19文献的主题。该数据集包含7个主题标签:治疗、诊断、预防、机制、传播、流行病预测和病例报告。这些主题已被证明对信息检索有效,并已用于许多与COVID-19相关的下游应用。数据集包含训练集、验证集和测试集,分别包含24,960、6,239和2,500篇文章。每个数据实例包含多个字段,如PubMed标识符、期刊名称、文章标题、摘要、关键词等。
提供机构:
KushT
原始信息汇总

数据集卡片

数据集描述

数据集概述

LitCovid中的主题标注是一个多标签文档分类任务,为每篇文章分配一个或多个标签。LitCovid使用的7个主题标签包括:治疗、诊断、预防、机制、传播、流行病预测和病例报告。这些主题已被证明对信息检索有效,并已用于许多与COVID-19相关的下游应用。

数据集结构

数据实例和数据分割

  • 训练集包含24,960篇来自LitCovid的文章;
  • 验证集包含6,239篇来自LitCovid的文章;
  • 测试集包含2,500篇来自LitCovid的文章;

数据字段

从PubMed/LitCovid获取的以下字段:

  • pmid: PubMed标识符
  • journal: 期刊名称
  • title: 文章标题
  • abstract: 文章摘要
  • keywords: 作者提供的关键词
  • pub_type: 文章类型,例如期刊文章
  • authors: 作者姓名
  • doi: 数字对象标识符
  • label: 标注的主题列表,指示标签的存在或不存在,顺序为治疗,诊断,预防,机制,传播,流行病预测,病例报告
  • text: 文本字段创建如下:[Title]: + title + [Abstract]: + abstract + [Keywords]: + keywords
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作