KushT/LitCovid_BioCreative
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KushT/LitCovid_BioCreative
下载链接
链接失效反馈官方服务:
资源简介:
LitCovid数据集是一个用于多标签文档分类任务的数据集,主要用于标注COVID-19文献的主题。该数据集包含7个主题标签:治疗、诊断、预防、机制、传播、流行病预测和病例报告。这些主题已被证明对信息检索有效,并已用于许多与COVID-19相关的下游应用。数据集包含训练集、验证集和测试集,分别包含24,960、6,239和2,500篇文章。每个数据实例包含多个字段,如PubMed标识符、期刊名称、文章标题、摘要、关键词等。
提供机构:
KushT
原始信息汇总
数据集卡片
数据集描述
数据集概述
LitCovid中的主题标注是一个多标签文档分类任务,为每篇文章分配一个或多个标签。LitCovid使用的7个主题标签包括:治疗、诊断、预防、机制、传播、流行病预测和病例报告。这些主题已被证明对信息检索有效,并已用于许多与COVID-19相关的下游应用。
数据集结构
数据实例和数据分割
- 训练集包含24,960篇来自LitCovid的文章;
- 验证集包含6,239篇来自LitCovid的文章;
- 测试集包含2,500篇来自LitCovid的文章;
数据字段
从PubMed/LitCovid获取的以下字段:
- pmid: PubMed标识符
- journal: 期刊名称
- title: 文章标题
- abstract: 文章摘要
- keywords: 作者提供的关键词
- pub_type: 文章类型,例如期刊文章
- authors: 作者姓名
- doi: 数字对象标识符
- label: 标注的主题列表,指示标签的存在或不存在,顺序为治疗,诊断,预防,机制,传播,流行病预测,病例报告
- text: 文本字段创建如下:[Title]: + title + [Abstract]: + abstract + [Keywords]: + keywords



