five

COVID-19 Open Research Dataset (CORD-19)|COVID-19数据集|医学研究数据集

收藏
SSH Open MarketPlace2021-07-22 更新2024-08-03 收录
COVID-19
医学研究
下载链接:
https://marketplace.sshopencloud.eu/dataset/cGoBRY
下载链接
链接失效反馈
资源简介:
In response to the COVID-19 pandemic, the Allen Institute for AI has partnered with leading research groups to prepare and distribute the COVID-19 Open Research Dataset (CORD-19), a free resource of over 52,000 scholarly articles, including over 41,000 with full text, about COVID-19 and the coronavirus family of viruses for use by the global research community.
创建时间:
2021-07-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
COVID-19 Open Research Dataset (CORD-19) 数据集的构建基于对全球范围内与COVID-19相关的科学文献的系统性收集与整理。该数据集由多个学术出版机构和研究组织合作完成,通过自动化工具和人工审核相结合的方式,确保了文献的全面性和准确性。数据集涵盖了从病毒起源到疫苗研发等多个主题,旨在为全球科研人员提供一个统一的资源平台,以加速COVID-19相关研究的进展。
使用方法
使用 CORD-19 数据集时,研究人员可以通过关键词检索、主题分类或作者筛选等方式快速定位所需文献。数据集支持多种数据分析工具和编程语言,如Python和R,方便进行文本挖掘和数据可视化。此外,数据集的API接口允许用户进行实时数据抓取和更新,确保研究工作的时效性和准确性。
背景与挑战
背景概述
COVID-19 Open Research Dataset (CORD-19) 是由Allen Institute for AI、Chan Zuckerberg Initiative、Microsoft Research和National Library of Medicine等机构于2020年共同创建的,旨在应对新型冠状病毒大流行带来的科学研究需求。该数据集汇集了来自全球的科学文献,包括预印本、期刊文章和会议论文,涵盖了病毒学、流行病学、公共卫生等多个领域。CORD-19的推出极大地促进了全球科研人员对COVID-19相关研究的理解和应用,成为抗击疫情的重要工具。
当前挑战
尽管CORD-19数据集在短时间内取得了显著的成果,但其构建和应用过程中仍面临诸多挑战。首先,数据集的规模庞大,包含了数百万篇文献,如何高效地进行数据清洗和标注成为一大难题。其次,文献内容的多样性和复杂性使得信息提取和知识图谱构建变得异常困难。此外,数据集的更新速度快,需要持续的技术支持和资源投入以保持其时效性和准确性。最后,跨学科的研究需求要求数据集能够支持多领域的分析和应用,这对数据集的结构和功能提出了更高的要求。
发展历史
创建时间与更新
COVID-19 Open Research Dataset (CORD-19) 于2020年3月由Allen Institute for AI与多家机构合作创建,旨在为全球科研人员提供关于COVID-19的全面文献资源。该数据集自创建以来,持续进行更新,以确保包含最新的研究成果和数据。
重要里程碑
CORD-19的创建标志着全球科研界在应对COVID-19大流行时的一个重要里程碑。数据集首次发布时包含了超过29,000篇学术文章,其中超过13,000篇为全文。随着时间的推移,CORD-19不断扩展,截至2021年,已包含超过700,000篇文献,涵盖了从病毒起源到疫苗研发的广泛主题。此外,CORD-19还推动了多个跨学科研究项目,促进了全球科研合作与知识共享。
当前发展情况
当前,CORD-19已成为全球科研人员研究COVID-19及相关领域的重要资源。数据集的持续更新确保了其内容的时效性和全面性,为病毒学、流行病学、公共卫生等多个领域的研究提供了坚实的基础。CORD-19不仅支持了大量的学术研究,还为政策制定者和公共卫生专家提供了宝贵的数据支持。此外,CORD-19的成功也激发了更多开放数据集的创建,推动了数据科学和人工智能在公共卫生领域的应用。
发展历程
  • COVID-19 Open Research Dataset (CORD-19) 首次发布,由美国白宫、美国国家卫生研究院、艾伦人工智能研究所等机构联合推出,旨在为全球科研人员提供关于COVID-19的全面文献数据。
    2020年
  • CORD-19 数据集首次应用于多个研究项目,包括病毒传播模型、药物研发和公共卫生策略分析等领域,迅速成为全球科研社区的重要资源。
    2020年
  • CORD-19 数据集持续更新,收录了超过100万篇与COVID-19相关的学术文章,进一步丰富了数据内容,支持了更多深入的研究和分析。
    2021年
  • CORD-19 数据集被广泛应用于人工智能和机器学习领域,推动了自然语言处理技术在医学文献分析中的应用,促进了跨学科研究的发展。
    2022年
常用场景
经典使用场景
在COVID-19大流行期间,COVID-19 Open Research Dataset (CORD-19) 成为全球科研人员的重要资源。该数据集汇集了大量与COVID-19相关的学术论文、研究报告和临床试验数据,为科学家们提供了丰富的信息基础。通过CORD-19,研究人员可以快速检索和分析与病毒传播、疫苗开发、治疗策略等相关的文献,从而加速科学发现和知识共享。
解决学术问题
CORD-19数据集解决了在COVID-19研究中面临的信息碎片化和检索效率低下的问题。通过整合全球范围内的相关文献,CORD-19为研究人员提供了一个统一的平台,使得跨学科的合作和数据驱动的研究成为可能。这不仅加速了病毒学、流行病学和公共卫生领域的研究进展,还为政策制定者提供了科学依据,从而在全球范围内推动了有效的疫情防控措施。
实际应用
在实际应用中,CORD-19数据集被广泛用于支持全球范围内的COVID-19研究和公共卫生决策。例如,研究人员利用该数据集进行病毒基因组分析,以追踪病毒的变异和传播路径;临床医生则通过查阅相关文献,优化治疗方案和药物选择。此外,CORD-19还为公众提供了透明的科学信息,增强了公众对疫情的理解和应对能力。
数据集最近研究
最新研究方向
在COVID-19大流行的背景下,COVID-19 Open Research Dataset (CORD-19)数据集已成为全球科研人员的重要资源。该数据集汇集了大量与COVID-19相关的学术文献,涵盖病毒学、流行病学、公共卫生等多个领域。最新研究方向主要集中在利用自然语言处理技术,从海量文献中提取关键信息,以加速病毒传播模型构建、药物研发和疫苗效果评估。此外,数据集还被用于跨学科研究,如结合地理信息系统分析疫情空间分布,以及通过机器学习预测疫情发展趋势。这些前沿研究不仅提升了我们对COVID-19的理解,也为全球公共卫生政策的制定提供了科学依据。
相关研究论文
  • 1
    COVID-19 Open Research Dataset (CORD-19)Allen Institute for AI · 2020年
  • 2
    COVID-19 Open Research Dataset Challenge (CORD-19)Kaggle · 2020年
  • 3
    A Text Mining Approach to Analyzing COVID-19 Research Articles Using the CORD-19 DatasetNational Center for Biotechnology Information · 2021年
  • 4
    COVID-19 Literature Knowledge Graph Construction and Drug Repurposing Report GenerationAssociation for Computational Linguistics · 2020年
  • 5
    COVID-19 Literature Clustering and Topic Modeling Using the CORD-19 DatasetElsevier · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录