CORD-19, Pubmed
收藏github2023-01-13 更新2024-05-31 收录
下载链接:
https://github.com/davidcampos/covid19-corpus
下载链接
链接失效反馈官方服务:
资源简介:
COVID-19语料库包含研究文章,注释了感兴趣的生物医学实体,如疾病、物种、化学或药物、基因或蛋白质、酶、解剖结构、生物过程、分子功能、细胞组件、途径和微小RNA。提供了两个不同的数据集:CORD-19全文文章和Pubmed摘要文章,均包含大量注释。
The COVID-19 corpus comprises research articles annotated with biomedical entities of interest, such as diseases, species, chemicals or drugs, genes or proteins, enzymes, anatomical structures, biological processes, molecular functions, cellular components, pathways, and microRNAs. Two distinct datasets are provided: CORD-19 full-text articles and Pubmed abstract articles, both containing extensive annotations.
创建时间:
2020-03-27
原始信息汇总
COVID-19 Corpus 概述
数据集内容
- COVID-19 Corpus 包含两类数据集:
- CORD-19:包含超过3100万条标注的全文研究文章。
- Pubmed:包含超过68万条标注的摘要研究文章。
数据集统计
- CORD-19:
- 文章数量:33,375篇
- 实体标注出现次数:31,272,212次
- 唯一实体标注数量:141,604个
- Pubmed:
- 摘要数量:17,740篇
- 实体标注出现次数:683,349次
- 唯一实体标注数量:29,423个
实体类型统计
-
CORD-19:
实体类型 出现次数 唯一实体数 Disorder 5,638,277 18,704 Species 5,899,678 30,343 Chemical or Drug 4,458,126 11,173 Gene and Protein 2,013,425 57,738 Enzyme 372,308 1,480 Anatomy 5,420,584 10,373 Biological Process 3,701,117 7,765 Molecular Function 842,418 1,722 Cellular Component 2,542,276 1,099 Pathway 382,338 517 microRNA 1,665 690 -
Pubmed:
实体类型 出现次数 唯一实体数 Disorder 183,528 4,477 Species 128,356 2,170 Chemical or Drug 70,619 2,768 Gene and Protein 51,114 15,025 Enzyme 7,892 282 Anatomy 106,401 2,369 Biological Process 74,286 1,561 Molecular Function 15,089 383 Cellular Component 39,451 263 Pathway 6,587 97 microRNA 26 28
资源应用
- 用于标注各实体类型的资源包括:
- Disorder:UMLS
- Species:NCBI Taxonomy
- Chemical or Drug:ChEBI
- Gene or Protein:NER with CRFs and normalization with UniProt
- Enzyme:ExPASy
- Anatomy:Unified Medical Language System (UMLS)
- Biological Process:Gene Ontology (GO) and UMLS
- Molecular Function:Gene Ontology (GO)
- Cellular Component:Gene Ontology (GO)
- Pathway:NCBI BioSystems
- microRNA:miRBase
工具
- 使用工具 Neji 进行命名实体识别(NER)和规范化处理。
许可证
- 数据集的标注和脚本根据 MIT 许可证 免费提供使用。
搜集汇总
数据集介绍

构建方式
CORD-19和Pubmed数据集的构建基于对COVID-19相关研究文献的深度挖掘与标注。CORD-19数据集包含了超过33,000篇全文研究文章,而Pubmed数据集则涵盖了17,740篇摘要文章。这些文献通过Neji工具进行命名实体识别(NER)和标准化处理,标注了包括疾病、物种、化学药物、基因或蛋白质等在内的多种生物医学实体。标注过程中,使用了如UMLS、NCBI Taxonomy、ChEBI等权威生物医学资源,确保了标注的准确性和广泛性。
使用方法
CORD-19和Pubmed数据集的使用方法多样,适用于多种研究场景。研究者可以通过下载数据集,利用其中的标注信息进行文本挖掘、实体关系分析、药物发现等研究。数据集提供了详细的统计信息和技术描述,帮助用户快速了解数据结构和内容。此外,数据集的使用不受限制,遵循MIT许可协议,用户可以自由地进行二次开发和分享,推动COVID-19相关研究的进展。
背景与挑战
背景概述
CORD-19和Pubmed数据集是在2020年COVID-19大流行期间创建的,旨在为研究人员提供丰富的生物医学文献资源,以加速对新冠病毒的理解和治疗方法的开发。该数据集由Allen Institute for AI等机构主导,涵盖了超过33,000篇全文文章和17,740篇摘要,并标注了与COVID-19相关的生物医学实体,如疾病、物种、化学药物、基因或蛋白质等。这些标注数据为研究人员提供了宝贵的资源,帮助他们在药物发现、疾病机制研究和流行病学分析等领域取得突破。该数据集的发布极大地推动了生物医学信息学的发展,并为全球抗击COVID-19提供了科学支持。
当前挑战
CORD-19和Pubmed数据集在构建和应用过程中面临多重挑战。首先,数据标注的复杂性是一个显著问题,生物医学文献中的实体识别和标准化需要高度专业的知识和工具,如Neji工具的使用。其次,数据集的规模和多样性带来了计算资源和管理上的挑战,尤其是在处理数百万条标注时。此外,数据集的更新和维护需要持续的努力,以确保其与最新的研究成果保持一致。最后,尽管数据集为COVID-19研究提供了重要支持,但其应用仍受限于数据质量和标注的准确性,特别是在跨领域研究中,如何有效整合和利用这些数据仍是一个亟待解决的问题。
常用场景
经典使用场景
CORD-19和Pubmed数据集在COVID-19研究中扮演了关键角色,尤其是在生物医学文献的实体标注方面。这些数据集通过提供大量标注的全文和摘要文章,为研究人员提供了丰富的资源,用于探索与COVID-19相关的疾病、物种、化学药物、基因和蛋白质等生物医学实体。这些标注数据不仅帮助研究人员快速定位关键信息,还为自然语言处理(NLP)模型的训练和评估提供了高质量的语料库。
解决学术问题
CORD-19和Pubmed数据集解决了COVID-19研究中信息过载和知识提取的难题。通过标注生物医学实体,这些数据集帮助研究人员从海量文献中提取出关键信息,加速了对COVID-19的理解。特别是在药物发现、病毒传播机制和宿主-病原体相互作用等领域,这些数据集为研究人员提供了结构化的数据支持,推动了相关领域的学术进展。
实际应用
在实际应用中,CORD-19和Pubmed数据集被广泛应用于药物研发、流行病学研究和临床决策支持系统。例如,制药公司可以利用这些数据集中的化学药物和基因标注信息,筛选潜在的抗病毒药物。此外,公共卫生机构可以通过分析这些数据集中的疾病和物种信息,更好地理解病毒的传播路径和宿主范围,从而制定更有效的防控策略。
数据集最近研究
最新研究方向
在COVID-19研究领域,CORD-19和Pubmed数据集的最新研究方向主要集中在通过大规模文本挖掘和生物医学实体标注,深入探索与COVID-19相关的疾病机制、药物研发及病毒传播路径。这些数据集通过标注超过3100万次的生物医学实体,如疾病、物种、化学药物、基因和蛋白质等,为研究人员提供了丰富的结构化数据资源。当前研究热点包括利用这些标注数据开发自然语言处理模型,以自动提取和关联COVID-19相关文献中的关键信息,从而加速疫苗和药物的研发进程。此外,研究者们还致力于通过分析实体间的共现关系,揭示潜在的生物标志物和治疗靶点,为全球抗疫提供科学依据。这些研究不仅推动了生物医学信息学的发展,也为应对未来公共卫生危机奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



