five

CORD-19|COVID-19研究数据集|数据科学数据集

收藏
arXiv2020-07-11 更新2024-06-21 收录
COVID-19研究
数据科学
下载链接:
https://www.semanticscholar.org/cord19
下载链接
链接失效反馈
资源简介:
CORD-19是由艾伦人工智能研究所与多个合作伙伴共同创建的一个关于COVID-19及相关历史冠状病毒研究的大型数据集。该数据集包含超过140,000篇科学论文和预印本,主要来源于PubMed Central、PubMed、世界卫生组织的Covid-19数据库以及预印本服务器bioRxiv、medRxiv和arXiv。CORD-19旨在通过提供丰富的元数据和结构化全文论文,促进文本挖掘和信息检索系统的发展。数据集的创建过程中,面临了从多个来源整合和标准化数据的挑战,同时确保了数据的及时更新。CORD-19的应用领域广泛,包括支持临床研究和系统评价,以及为数据科学家和机器学习实践者构建搜索和提取工具,旨在加速发现COVID-19的有效治疗方法和管理政策。
提供机构:
艾伦人工智能研究所
创建时间:
2020-04-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
CORD-19数据集的构建采用了多源文献整合的方式。首先,通过Semantic Scholar文献搜索引擎从PubMed Central、PubMed、世界卫生组织的COVID-19数据库以及bioRxiv、medRxiv和arXiv预印本服务器等多个来源收集COVID-19和相关历史冠状病毒研究的论文。其次,对收集到的论文进行元数据的统一和去重处理,以确保元数据的准确性和一致性。此外,对于可获取全文的论文,通过PDF解析流程提取全文,并以S2ORC JSON格式存储。最后,为了更好地提取表格信息,还采用了IBM Watson Discovery的Smart Document Understanding (SDU)能力进行表格提取和理解,并将匹配的表格HTML插入到全文JSON中。
特点
CORD-19数据集具有以下几个显著特点:1. 规模庞大且持续更新,自2020年3月发布以来,已包含超过14万篇论文,并持续更新;2. 内容丰富,涵盖了医学、生物学、化学等多个领域的论文,其中医学领域的论文占比最高;3. 全文可读,超过72%的论文提供了全文,并以S2ORC JSON格式存储,方便文本挖掘和信息检索;4. 开放获取,数据集采用开放获取许可,允许用户自由使用和分享。
使用方法
使用CORD-19数据集的方法主要包括:1. 直接使用,如临床医生和临床研究人员可以将其作为论文集进行系统性回顾;2. 构建工具和系统,如开发信息检索和提取工具,帮助临床医生快速获取相关信息;3. 文本挖掘和NLP研究,如进行实体识别、文本分类、预训练模型等研究;4. 共享任务和竞赛,如Kaggle和TREC-COVID等,推动基于数据集的文本挖掘和NLP系统的发展。
背景与挑战
背景概述
在COVID-19疫情暴发初期,全球科研人员迫切需要访问与COVID-19及相关冠状病毒研究相关的科学论文。为了应对这一需求,艾伦人工智能研究所(AI2)联合白宫科技政策办公室(OSTP)、国家医学图书馆(NLM)、陈-扎克伯格倡议(CZI)、微软研究院和Kaggle等机构,于2020年3月16日发布了COVID-19开放研究数据集(CORD-19)。该数据集旨在通过其丰富的元数据和结构化全文论文,促进文本挖掘和信息检索系统的发展。自发布以来,CORD-19已被下载超过20万次,并成为许多COVID-19文本挖掘和发现系统的基础。该数据集的创建不仅为计算机科学、生物医学和政策制定者提供了宝贵的资源,还推动了COVID-19有效治疗和管理政策的发现。
当前挑战
尽管CORD-19数据集为COVID-19研究提供了强大的支持,但其在构建过程中也面临了一系列挑战。首先,数据集需要保持实时更新,以应对每日数百篇新论文的发布。其次,数据集整合了来自多个来源的论文,每个来源都有自己的元数据格式,需要被转换并统一到CORD-19格式中。此外,由于论文来源的多样性,数据集中存在重复的元数据,需要通过聚类和去重来处理。最后,尽管许多COVID-19文献已被出版商开放获取,但这些开放获取许可证的条款在不同论文之间差异很大,需要仔细处理版权限制问题。
常用场景
经典使用场景
在COVID-19疫情爆发期间,CORD-19数据集被广泛应用于文本挖掘和信息检索系统的研究与开发。该数据集包含了丰富的元数据和完整的文本论文,为研究者提供了海量的COVID-19相关研究资料。研究者利用AI技术,如自然语言处理,从文献中提取有用信息,构建搜索和提取工具,以加快对COVID-19的有效治疗和管理政策的研究。
解决学术问题
CORD-19数据集解决了在COVID-19疫情中,研究者和政策制定者迫切需要获取和整合大量科学文献的问题。它为医学专家提供了进行系统评价的平台,为数据科学家和机器学习实践者提供了构建搜索和提取工具的数据基础,并通过共享任务促进了相关研究的发展。此外,CORD-19还促进了计算社区、生物医学专家和政策制定者之间的合作,以共同寻找COVID-19的有效治疗和管理政策。
衍生相关工作
CORD-19数据集的发布促进了相关研究的开展,衍生出了一系列经典工作。例如,Kaggle举办的CORD-19研究挑战赛和TREC-COVID共享任务,吸引了众多研究者和团队参与,推动了文本挖掘和信息检索系统的发展。此外,基于CORD-19数据集,还开发了一系列工具和系统,如COVIDASK、Vespa、SciSight等,以支持COVID-19的研究和决策。这些工作不仅为COVID-19的研究提供了有力的支持,也为文本挖掘和信息检索领域的发展做出了重要贡献。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Interaction Dataset

Interaction Dataset是一个用于处理和可视化交通场景的数据集,支持轨迹预测挑战,包括三个不同的预测模型训练和测试轨道。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录