five

CORD-19|医学研究数据集|文献分析数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
医学研究
文献分析
下载链接:
https://opendatalab.org.cn/OpenDataLab/CORD-19
下载链接
链接失效反馈
资源简介:
CORD-19 是一个免费资源,包含数万篇关于 COVID-19、SARS-CoV-2 和相关冠状病毒的学术文章,供全球研究界使用。
提供机构:
OpenDataLab
创建时间:
2022-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
CORD-19数据集的构建基于对COVID-19相关文献的广泛收集与整理。该数据集汇集了来自多个学术出版物和预印本平台的文献,通过自动化和人工审核相结合的方式,确保了数据的准确性和完整性。构建过程中,特别注重对不同语言和来源的文献进行统一格式化,以便于后续的分析和研究。
特点
CORD-19数据集以其大规模和多样性著称,包含了超过100,000篇与COVID-19相关的学术文章。这些文章涵盖了病毒学、流行病学、公共卫生等多个学科领域,为研究人员提供了丰富的信息资源。此外,数据集还提供了详细的元数据,包括作者信息、关键词、摘要等,便于用户进行深入的文献检索和分析。
使用方法
CORD-19数据集适用于多种研究目的,包括但不限于病毒传播模型构建、药物研发、公共卫生政策制定等。用户可以通过访问数据集的官方网站或使用API接口获取所需数据。在使用过程中,建议结合自然语言处理技术对文献进行文本挖掘,以提取关键信息和发现潜在的研究趋势。此外,数据集还支持跨学科合作,促进不同领域专家之间的知识共享和协同研究。
背景与挑战
背景概述
CORD-19数据集,全称为COVID-19 Open Research Dataset,是由Allen Institute for AI、Chan Zuckerberg Initiative、Microsoft Research和National Library of Medicine等机构于2020年联合创建的。该数据集旨在为全球科研人员提供一个全面、开放的资源,以加速COVID-19及其相关病毒的研究。CORD-19包含了超过50万篇与COVID-19、SARS-CoV-2及其他冠状病毒相关的学术文章,涵盖了从病毒起源到治疗策略的广泛主题。这一数据集的推出极大地促进了全球范围内的科学合作与知识共享,为抗击疫情提供了重要的数据支持。
当前挑战
尽管CORD-19数据集在短时间内取得了显著的成果,但其构建和使用过程中仍面临诸多挑战。首先,数据集的规模庞大,包含了多种语言和不同质量的文献,这使得数据清洗和标准化成为一个巨大的挑战。其次,由于COVID-19研究的紧迫性,数据集的更新速度极快,如何确保数据的实时性和准确性是一个持续的难题。此外,跨学科的研究需求使得数据集需要整合来自医学、生物学、计算机科学等多个领域的知识,这对数据集的结构和查询效率提出了更高的要求。
发展历史
创建时间与更新
CORD-19数据集于2020年3月由Allen Institute for AI首次发布,旨在应对COVID-19大流行带来的科学研究需求。该数据集在发布后持续更新,截至2023年,已包含超过100万篇与COVID-19相关的科学文献。
重要里程碑
CORD-19数据集的发布标志着科学界在应对全球公共卫生危机中的一个重要里程碑。其首次发布时,即包含了超过29,000篇经过筛选的学术文章,为研究人员提供了丰富的数据资源。随着时间的推移,数据集不断扩展,涵盖了从病毒基因组到流行病学研究等多个领域的文献。此外,CORD-19还促进了跨学科的合作,推动了AI技术在医学研究中的应用,成为全球科研社区的重要工具。
当前发展情况
当前,CORD-19数据集已成为全球科研人员研究COVID-19及其相关领域的重要资源。其持续的更新和扩展,不仅为病毒学、流行病学和公共卫生研究提供了宝贵的数据支持,还推动了AI和大数据技术在医学领域的应用。CORD-19的成功也激发了更多关于开放科学数据共享的讨论,促进了全球科研合作的深化。未来,随着更多相关研究的开展,CORD-19将继续在科学研究和公共卫生政策制定中发挥关键作用。
发展历程
  • CORD-19数据集首次发布,旨在为研究人员提供关于COVID-19、SARS-CoV-2和相关冠状病毒的科学文献。
    2020年
  • CORD-19数据集被广泛应用于COVID-19相关研究,成为全球科学家和研究机构的重要资源。
    2020年
  • CORD-19数据集持续更新,增加了更多关于COVID-19的最新研究成果和文献。
    2021年
  • CORD-19数据集的应用扩展到其他传染病和公共卫生领域的研究,进一步推动了全球公共卫生科学的发展。
    2022年
常用场景
经典使用场景
在COVID-19大流行期间,CORD-19数据集成为全球科研人员的重要资源。该数据集汇集了大量关于新型冠状病毒的学术论文、研究报告和相关文献,为科学家们提供了丰富的信息基础。通过CORD-19,研究人员可以快速检索和分析与COVID-19相关的研究成果,从而加速病毒传播机制、疫苗开发和治疗策略的研究进程。
解决学术问题
CORD-19数据集解决了在COVID-19研究中面临的文献分散和信息获取困难的问题。通过集中整理和结构化处理,该数据集为学术界提供了一个统一的资源平台,使得研究人员能够更高效地进行文献综述和数据分析。这不仅加速了科学研究的进展,还促进了跨学科的合作与交流,为全球抗击疫情提供了坚实的学术支持。
衍生相关工作
CORD-19数据集的发布催生了大量相关的经典工作。例如,基于该数据集的文本挖掘和自然语言处理技术得到了广泛应用,推动了疫情相关文献的自动化分析和知识图谱构建。此外,CORD-19还激发了多篇高影响力的研究论文,涵盖了病毒学、流行病学、药物研发等多个领域。这些工作不仅丰富了COVID-19的研究成果,也为未来的公共卫生数据管理提供了宝贵的经验。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

Ansh007/Jellyfish-Image-Dataset

该数据集包含900张水母图像,分为六个不同的类别和物种:紫水母、月亮水母、桶水母、蓝水母、罗盘水母和狮鬃水母。这些图像可用于机器学习技术,以获得水母分类、物种识别和颜色分析的洞察。每个物种都有详细的描述,包括其特征和食物来源。此外,数据集还提供了使用案例,如水母分类、物种识别和颜色分析。

hugging_face 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录