COVID-19 Open Research Dataset (CORD-19)
收藏SSH Open MarketPlace2021-07-22 更新2024-08-03 收录
下载链接:
https://marketplace.sshopencloud.eu/dataset/cGoBRY
下载链接
链接失效反馈官方服务:
资源简介:
In response to the COVID-19 pandemic, the Allen Institute for AI has partnered with leading research groups to prepare and distribute the COVID-19 Open Research Dataset (CORD-19), a free resource of over 52,000 scholarly articles, including over 41,000 with full text, about COVID-19 and the coronavirus family of viruses for use by the global research community.
为应对新型冠状病毒肺炎(COVID-19)疫情,艾伦人工智能研究所(Allen Institute for AI)联合顶尖科研团队筹备并发布了新冠开放研究数据集(COVID-19 Open Research Dataset, CORD-19)。该免费资源涵盖超5.2万篇学术论文,其中逾4.1万篇带有完整文本,内容聚焦新冠病毒及冠状病毒家族相关研究,面向全球科研群体开放使用。
创建时间:
2021-07-22
搜集汇总
数据集介绍

构建方式
COVID-19 Open Research Dataset (CORD-19) 数据集的构建基于对全球范围内与COVID-19相关的科学文献的系统性收集与整理。该数据集由多个学术出版机构和研究组织合作完成,通过自动化工具和人工审核相结合的方式,确保了文献的全面性和准确性。数据集涵盖了从病毒起源到疫苗研发等多个主题,旨在为全球科研人员提供一个统一的资源平台,以加速COVID-19相关研究的进展。
使用方法
使用 CORD-19 数据集时,研究人员可以通过关键词检索、主题分类或作者筛选等方式快速定位所需文献。数据集支持多种数据分析工具和编程语言,如Python和R,方便进行文本挖掘和数据可视化。此外,数据集的API接口允许用户进行实时数据抓取和更新,确保研究工作的时效性和准确性。
背景与挑战
背景概述
COVID-19 Open Research Dataset (CORD-19) 是由Allen Institute for AI、Chan Zuckerberg Initiative、Microsoft Research和National Library of Medicine等机构于2020年共同创建的,旨在应对新型冠状病毒大流行带来的科学研究需求。该数据集汇集了来自全球的科学文献,包括预印本、期刊文章和会议论文,涵盖了病毒学、流行病学、公共卫生等多个领域。CORD-19的推出极大地促进了全球科研人员对COVID-19相关研究的理解和应用,成为抗击疫情的重要工具。
当前挑战
尽管CORD-19数据集在短时间内取得了显著的成果,但其构建和应用过程中仍面临诸多挑战。首先,数据集的规模庞大,包含了数百万篇文献,如何高效地进行数据清洗和标注成为一大难题。其次,文献内容的多样性和复杂性使得信息提取和知识图谱构建变得异常困难。此外,数据集的更新速度快,需要持续的技术支持和资源投入以保持其时效性和准确性。最后,跨学科的研究需求要求数据集能够支持多领域的分析和应用,这对数据集的结构和功能提出了更高的要求。
发展历史
创建时间与更新
COVID-19 Open Research Dataset (CORD-19) 于2020年3月由Allen Institute for AI与多家机构合作创建,旨在为全球科研人员提供关于COVID-19的全面文献资源。该数据集自创建以来,持续进行更新,以确保包含最新的研究成果和数据。
重要里程碑
CORD-19的创建标志着全球科研界在应对COVID-19大流行时的一个重要里程碑。数据集首次发布时包含了超过29,000篇学术文章,其中超过13,000篇为全文。随着时间的推移,CORD-19不断扩展,截至2021年,已包含超过700,000篇文献,涵盖了从病毒起源到疫苗研发的广泛主题。此外,CORD-19还推动了多个跨学科研究项目,促进了全球科研合作与知识共享。
当前发展情况
当前,CORD-19已成为全球科研人员研究COVID-19及相关领域的重要资源。数据集的持续更新确保了其内容的时效性和全面性,为病毒学、流行病学、公共卫生等多个领域的研究提供了坚实的基础。CORD-19不仅支持了大量的学术研究,还为政策制定者和公共卫生专家提供了宝贵的数据支持。此外,CORD-19的成功也激发了更多开放数据集的创建,推动了数据科学和人工智能在公共卫生领域的应用。
发展历程
- COVID-19 Open Research Dataset (CORD-19) 首次发布,由美国白宫、美国国家卫生研究院、艾伦人工智能研究所等机构联合推出,旨在为全球科研人员提供关于COVID-19的全面文献数据。
- CORD-19 数据集首次应用于多个研究项目,包括病毒传播模型、药物研发和公共卫生策略分析等领域,迅速成为全球科研社区的重要资源。
- CORD-19 数据集持续更新,收录了超过100万篇与COVID-19相关的学术文章,进一步丰富了数据内容,支持了更多深入的研究和分析。
- CORD-19 数据集被广泛应用于人工智能和机器学习领域,推动了自然语言处理技术在医学文献分析中的应用,促进了跨学科研究的发展。
常用场景
经典使用场景
在COVID-19大流行期间,COVID-19 Open Research Dataset (CORD-19) 成为全球科研人员的重要资源。该数据集汇集了大量与COVID-19相关的学术论文、研究报告和临床试验数据,为科学家们提供了丰富的信息基础。通过CORD-19,研究人员可以快速检索和分析与病毒传播、疫苗开发、治疗策略等相关的文献,从而加速科学发现和知识共享。
解决学术问题
CORD-19数据集解决了在COVID-19研究中面临的信息碎片化和检索效率低下的问题。通过整合全球范围内的相关文献,CORD-19为研究人员提供了一个统一的平台,使得跨学科的合作和数据驱动的研究成为可能。这不仅加速了病毒学、流行病学和公共卫生领域的研究进展,还为政策制定者提供了科学依据,从而在全球范围内推动了有效的疫情防控措施。
实际应用
在实际应用中,CORD-19数据集被广泛用于支持全球范围内的COVID-19研究和公共卫生决策。例如,研究人员利用该数据集进行病毒基因组分析,以追踪病毒的变异和传播路径;临床医生则通过查阅相关文献,优化治疗方案和药物选择。此外,CORD-19还为公众提供了透明的科学信息,增强了公众对疫情的理解和应对能力。
数据集最近研究
最新研究方向
在COVID-19大流行的背景下,COVID-19 Open Research Dataset (CORD-19)数据集已成为全球科研人员的重要资源。该数据集汇集了大量与COVID-19相关的学术文献,涵盖病毒学、流行病学、公共卫生等多个领域。最新研究方向主要集中在利用自然语言处理技术,从海量文献中提取关键信息,以加速病毒传播模型构建、药物研发和疫苗效果评估。此外,数据集还被用于跨学科研究,如结合地理信息系统分析疫情空间分布,以及通过机器学习预测疫情发展趋势。这些前沿研究不仅提升了我们对COVID-19的理解,也为全球公共卫生政策的制定提供了科学依据。
相关研究论文
- 1COVID-19 Open Research Dataset (CORD-19)Allen Institute for AI · 2020年
- 2COVID-19 Open Research Dataset Challenge (CORD-19)Kaggle · 2020年
- 3A Text Mining Approach to Analyzing COVID-19 Research Articles Using the CORD-19 DatasetNational Center for Biotechnology Information · 2021年
- 4COVID-19 Literature Knowledge Graph Construction and Drug Repurposing Report GenerationAssociation for Computational Linguistics · 2020年
- 5COVID-19 Literature Clustering and Topic Modeling Using the CORD-19 DatasetElsevier · 2021年
以上内容由遇见数据集搜集并总结生成



