CORD-19

Name: CORD-19
Creator: 艾伦人工智能研究所
Published: 2020-07-11 05:40:34
License: 暂无描述

arXiv2020-07-11 更新2024-06-21 收录

下载链接：

https://www.semanticscholar.org/cord19

下载链接

链接失效反馈

官方服务：

资源简介：

CORD-19是由艾伦人工智能研究所与多个合作伙伴共同创建的一个关于COVID-19及相关历史冠状病毒研究的大型数据集。该数据集包含超过140,000篇科学论文和预印本，主要来源于PubMed Central、PubMed、世界卫生组织的Covid-19数据库以及预印本服务器bioRxiv、medRxiv和arXiv。CORD-19旨在通过提供丰富的元数据和结构化全文论文，促进文本挖掘和信息检索系统的发展。数据集的创建过程中，面临了从多个来源整合和标准化数据的挑战，同时确保了数据的及时更新。CORD-19的应用领域广泛，包括支持临床研究和系统评价，以及为数据科学家和机器学习实践者构建搜索和提取工具，旨在加速发现COVID-19的有效治疗方法和管理政策。

CORD-19 is a large-scale dataset focused on COVID-19 and related historical coronavirus research, jointly created by the Allen Institute for AI and multiple partners. The dataset contains over 140,000 scientific papers and preprints, mainly sourced from PubMed Central, PubMed, the World Health Organization's COVID-19 Database, as well as preprint servers bioRxiv, medRxiv and arXiv. CORD-19 aims to facilitate the development of text mining and information retrieval systems by providing rich metadata and structured full-text papers. During the dataset creation process, challenges were encountered in integrating and standardizing data from multiple sources while ensuring timely data updates. CORD-19 has a wide range of application scenarios, including supporting clinical research and systematic reviews, as well as enabling data scientists and machine learning practitioners to build search and extraction tools, with the goal of accelerating the discovery of effective COVID-19 treatments and management policies.

提供机构：

艾伦人工智能研究所

创建时间：

2020-04-23

搜集汇总

数据集介绍

构建方式

CORD-19数据集的构建采用了多源文献整合的方式。首先，通过Semantic Scholar文献搜索引擎从PubMed Central、PubMed、世界卫生组织的COVID-19数据库以及bioRxiv、medRxiv和arXiv预印本服务器等多个来源收集COVID-19和相关历史冠状病毒研究的论文。其次，对收集到的论文进行元数据的统一和去重处理，以确保元数据的准确性和一致性。此外，对于可获取全文的论文，通过PDF解析流程提取全文，并以S2ORC JSON格式存储。最后，为了更好地提取表格信息，还采用了IBM Watson Discovery的Smart Document Understanding (SDU)能力进行表格提取和理解，并将匹配的表格HTML插入到全文JSON中。

特点

CORD-19数据集具有以下几个显著特点：1. 规模庞大且持续更新，自2020年3月发布以来，已包含超过14万篇论文，并持续更新；2. 内容丰富，涵盖了医学、生物学、化学等多个领域的论文，其中医学领域的论文占比最高；3. 全文可读，超过72%的论文提供了全文，并以S2ORC JSON格式存储，方便文本挖掘和信息检索；4. 开放获取，数据集采用开放获取许可，允许用户自由使用和分享。

使用方法

使用CORD-19数据集的方法主要包括：1. 直接使用，如临床医生和临床研究人员可以将其作为论文集进行系统性回顾；2. 构建工具和系统，如开发信息检索和提取工具，帮助临床医生快速获取相关信息；3. 文本挖掘和NLP研究，如进行实体识别、文本分类、预训练模型等研究；4. 共享任务和竞赛，如Kaggle和TREC-COVID等，推动基于数据集的文本挖掘和NLP系统的发展。

背景与挑战

背景概述

在COVID-19疫情暴发初期，全球科研人员迫切需要访问与COVID-19及相关冠状病毒研究相关的科学论文。为了应对这一需求，艾伦人工智能研究所（AI2）联合白宫科技政策办公室（OSTP）、国家医学图书馆（NLM）、陈-扎克伯格倡议（CZI）、微软研究院和Kaggle等机构，于2020年3月16日发布了COVID-19开放研究数据集（CORD-19）。该数据集旨在通过其丰富的元数据和结构化全文论文，促进文本挖掘和信息检索系统的发展。自发布以来，CORD-19已被下载超过20万次，并成为许多COVID-19文本挖掘和发现系统的基础。该数据集的创建不仅为计算机科学、生物医学和政策制定者提供了宝贵的资源，还推动了COVID-19有效治疗和管理政策的发现。

当前挑战

尽管CORD-19数据集为COVID-19研究提供了强大的支持，但其在构建过程中也面临了一系列挑战。首先，数据集需要保持实时更新，以应对每日数百篇新论文的发布。其次，数据集整合了来自多个来源的论文，每个来源都有自己的元数据格式，需要被转换并统一到CORD-19格式中。此外，由于论文来源的多样性，数据集中存在重复的元数据，需要通过聚类和去重来处理。最后，尽管许多COVID-19文献已被出版商开放获取，但这些开放获取许可证的条款在不同论文之间差异很大，需要仔细处理版权限制问题。

常用场景

经典使用场景

在COVID-19疫情爆发期间，CORD-19数据集被广泛应用于文本挖掘和信息检索系统的研究与开发。该数据集包含了丰富的元数据和完整的文本论文，为研究者提供了海量的COVID-19相关研究资料。研究者利用AI技术，如自然语言处理，从文献中提取有用信息，构建搜索和提取工具，以加快对COVID-19的有效治疗和管理政策的研究。

解决学术问题

CORD-19数据集解决了在COVID-19疫情中，研究者和政策制定者迫切需要获取和整合大量科学文献的问题。它为医学专家提供了进行系统评价的平台，为数据科学家和机器学习实践者提供了构建搜索和提取工具的数据基础，并通过共享任务促进了相关研究的发展。此外，CORD-19还促进了计算社区、生物医学专家和政策制定者之间的合作，以共同寻找COVID-19的有效治疗和管理政策。

衍生相关工作

CORD-19数据集的发布促进了相关研究的开展，衍生出了一系列经典工作。例如，Kaggle举办的CORD-19研究挑战赛和TREC-COVID共享任务，吸引了众多研究者和团队参与，推动了文本挖掘和信息检索系统的发展。此外，基于CORD-19数据集，还开发了一系列工具和系统，如COVIDASK、Vespa、SciSight等，以支持COVID-19的研究和决策。这些工作不仅为COVID-19的研究提供了有力的支持，也为文本挖掘和信息检索领域的发展做出了重要贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集