CORD-19, Pubmed

github2023-01-13 更新2024-05-31 收录

下载链接：

https://github.com/davidcampos/covid19-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

COVID-19语料库包含研究文章，注释了感兴趣的生物医学实体，如疾病、物种、化学或药物、基因或蛋白质、酶、解剖结构、生物过程、分子功能、细胞组件、途径和微小RNA。提供了两个不同的数据集：CORD-19全文文章和Pubmed摘要文章，均包含大量注释。

The COVID-19 corpus comprises research articles annotated with biomedical entities of interest, such as diseases, species, chemicals or drugs, genes or proteins, enzymes, anatomical structures, biological processes, molecular functions, cellular components, pathways, and microRNAs. Two distinct datasets are provided: CORD-19 full-text articles and Pubmed abstract articles, both containing extensive annotations.

创建时间：

2020-03-27

原始信息汇总

COVID-19 Corpus 概述

数据集内容

COVID-19 Corpus 包含两类数据集：
- CORD-19：包含超过3100万条标注的全文研究文章。
- Pubmed：包含超过68万条标注的摘要研究文章。

数据集统计

CORD-19：
- 文章数量：33,375篇
- 实体标注出现次数：31,272,212次
- 唯一实体标注数量：141,604个
Pubmed：
- 摘要数量：17,740篇
- 实体标注出现次数：683,349次
- 唯一实体标注数量：29,423个

实体类型统计

CORD-19：

实体类型	出现次数	唯一实体数
Disorder	5,638,277	18,704
Species	5,899,678	30,343
Chemical or Drug	4,458,126	11,173
Gene and Protein	2,013,425	57,738
Enzyme	372,308	1,480
Anatomy	5,420,584	10,373
Biological Process	3,701,117	7,765
Molecular Function	842,418	1,722
Cellular Component	2,542,276	1,099
Pathway	382,338	517
microRNA	1,665	690

Pubmed：

实体类型	出现次数	唯一实体数
Disorder	183,528	4,477
Species	128,356	2,170
Chemical or Drug	70,619	2,768
Gene and Protein	51,114	15,025
Enzyme	7,892	282
Anatomy	106,401	2,369
Biological Process	74,286	1,561
Molecular Function	15,089	383
Cellular Component	39,451	263
Pathway	6,587	97
microRNA	26	28

资源应用

用于标注各实体类型的资源包括：
- Disorder：UMLS
- Species：NCBI Taxonomy
- Chemical or Drug：ChEBI
- Gene or Protein：NER with CRFs and normalization with UniProt
- Enzyme：ExPASy
- Anatomy：Unified Medical Language System (UMLS)
- Biological Process：Gene Ontology (GO) and UMLS
- Molecular Function：Gene Ontology (GO)
- Cellular Component：Gene Ontology (GO)
- Pathway：NCBI BioSystems
- microRNA：miRBase

工具

使用工具 Neji 进行命名实体识别（NER）和规范化处理。

许可证

数据集的标注和脚本根据 MIT 许可证 免费提供使用。

搜集汇总

数据集介绍

构建方式

CORD-19和Pubmed数据集的构建基于对COVID-19相关研究文献的深度挖掘与标注。CORD-19数据集包含了超过33,000篇全文研究文章，而Pubmed数据集则涵盖了17,740篇摘要文章。这些文献通过Neji工具进行命名实体识别（NER）和标准化处理，标注了包括疾病、物种、化学药物、基因或蛋白质等在内的多种生物医学实体。标注过程中，使用了如UMLS、NCBI Taxonomy、ChEBI等权威生物医学资源，确保了标注的准确性和广泛性。

使用方法

CORD-19和Pubmed数据集的使用方法多样，适用于多种研究场景。研究者可以通过下载数据集，利用其中的标注信息进行文本挖掘、实体关系分析、药物发现等研究。数据集提供了详细的统计信息和技术描述，帮助用户快速了解数据结构和内容。此外，数据集的使用不受限制，遵循MIT许可协议，用户可以自由地进行二次开发和分享，推动COVID-19相关研究的进展。

背景与挑战

背景概述

CORD-19和Pubmed数据集是在2020年COVID-19大流行期间创建的，旨在为研究人员提供丰富的生物医学文献资源，以加速对新冠病毒的理解和治疗方法的开发。该数据集由Allen Institute for AI等机构主导，涵盖了超过33,000篇全文文章和17,740篇摘要，并标注了与COVID-19相关的生物医学实体，如疾病、物种、化学药物、基因或蛋白质等。这些标注数据为研究人员提供了宝贵的资源，帮助他们在药物发现、疾病机制研究和流行病学分析等领域取得突破。该数据集的发布极大地推动了生物医学信息学的发展，并为全球抗击COVID-19提供了科学支持。

当前挑战

CORD-19和Pubmed数据集在构建和应用过程中面临多重挑战。首先，数据标注的复杂性是一个显著问题，生物医学文献中的实体识别和标准化需要高度专业的知识和工具，如Neji工具的使用。其次，数据集的规模和多样性带来了计算资源和管理上的挑战，尤其是在处理数百万条标注时。此外，数据集的更新和维护需要持续的努力，以确保其与最新的研究成果保持一致。最后，尽管数据集为COVID-19研究提供了重要支持，但其应用仍受限于数据质量和标注的准确性，特别是在跨领域研究中，如何有效整合和利用这些数据仍是一个亟待解决的问题。

常用场景

经典使用场景

CORD-19和Pubmed数据集在COVID-19研究中扮演了关键角色，尤其是在生物医学文献的实体标注方面。这些数据集通过提供大量标注的全文和摘要文章，为研究人员提供了丰富的资源，用于探索与COVID-19相关的疾病、物种、化学药物、基因和蛋白质等生物医学实体。这些标注数据不仅帮助研究人员快速定位关键信息，还为自然语言处理（NLP）模型的训练和评估提供了高质量的语料库。

解决学术问题

CORD-19和Pubmed数据集解决了COVID-19研究中信息过载和知识提取的难题。通过标注生物医学实体，这些数据集帮助研究人员从海量文献中提取出关键信息，加速了对COVID-19的理解。特别是在药物发现、病毒传播机制和宿主-病原体相互作用等领域，这些数据集为研究人员提供了结构化的数据支持，推动了相关领域的学术进展。

实际应用

在实际应用中，CORD-19和Pubmed数据集被广泛应用于药物研发、流行病学研究和临床决策支持系统。例如，制药公司可以利用这些数据集中的化学药物和基因标注信息，筛选潜在的抗病毒药物。此外，公共卫生机构可以通过分析这些数据集中的疾病和物种信息，更好地理解病毒的传播路径和宿主范围，从而制定更有效的防控策略。

数据集最近研究