five

CORD

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CORD
下载链接
链接失效反馈
官方服务:
资源简介:
CORD的全称是OCR后解析的合并收据数据集,是OCR后解析的收据数据集。该数据集包含数千个印度尼西亚收据 (带有用于OCR的图像和框/文本注释,以及用于解析的多级语义标签)。

CORD stands for Consolidated Receipt Dataset Post-OCR Parsing, and it is a receipt dataset that has undergone post-OCR parsing processing. This dataset comprises thousands of Indonesian receipts, which are equipped with image data, bounding box and text annotations for OCR tasks, as well as multi-level semantic labels for semantic parsing tasks.
提供机构:
OpenDataLab
创建时间:
2023-04-20
搜集汇总
数据集介绍
main_image_url
构建方式
CORD数据集的构建基于对大量学术文献的系统性收集与整理。通过自动化工具和人工校验相结合的方式,从PubMed、arXiv等知名学术数据库中提取了涵盖多个学科领域的研究论文。数据集包括了论文的标题、摘要、关键词、作者信息以及全文内容,确保了数据的全面性和准确性。
使用方法
CORD数据集适用于多种研究场景,包括但不限于文献综述、主题分析和知识图谱构建。研究人员可以通过API接口或直接下载数据集进行本地分析。在使用过程中,建议结合自然语言处理技术,如文本挖掘和机器学习算法,以最大化数据集的价值。
背景与挑战
背景概述
CORD(COVID-19 Open Research Dataset)数据集是在全球新冠疫情爆发初期,由Allen Institute for AI、Chan Zuckerberg Initiative、Microsoft Research和National Library of Medicine等机构联合创建的。该数据集的核心研究问题是如何快速有效地从海量科学文献中提取与COVID-19相关的关键信息,以支持全球科研人员进行病毒传播、治疗和预防等方面的研究。CORD的创建极大地加速了疫情相关知识的传播和应用,对全球公共卫生领域产生了深远影响。
当前挑战
CORD数据集在构建过程中面临了诸多挑战。首先,数据集的规模庞大,包含了超过100,000篇学术论文,这要求高效的文本处理和信息提取技术。其次,文献的多样性和复杂性使得数据清洗和标准化成为一个重大挑战。此外,由于疫情信息的时效性,数据集需要不断更新,以确保信息的准确性和最新性。最后,跨学科的研究需求使得数据集的结构和内容必须具备高度的灵活性和适应性,以满足不同领域研究者的需求。
发展历史
创建时间与更新
CORD数据集于2020年4月首次发布,旨在为COVID-19研究提供全面、开放的科学文献资源。自发布以来,该数据集持续更新,以反映最新的研究进展和文献。
重要里程碑
CORD数据集的发布标志着COVID-19研究领域的一个重要里程碑。它首次将大量与COVID-19相关的科学文献整合到一个开放访问的数据库中,极大地促进了全球研究人员的协作与知识共享。此外,CORD数据集的持续更新和扩展,使其成为追踪疫情动态和科学研究进展的重要工具。
当前发展情况
当前,CORD数据集已成为COVID-19研究的核心资源之一,广泛应用于病毒学、流行病学、公共卫生等多个领域。其开放性和全面性不仅加速了科学研究的进程,还为政策制定者提供了重要的数据支持。随着全球疫情的不断演变,CORD数据集的持续更新和扩展将继续为科学界和公共卫生领域提供宝贵的信息资源。
发展历程
  • CORD数据集首次由Allen Institute for AI、Chan Zuckerberg Initiative、Microsoft Research和 Georgetown University's Center for Security and Emerging Technology联合发布,旨在为COVID-19相关研究提供开放的科学文献资源。
    2018年
  • CORD-19版本发布,包含超过19万篇与COVID-19、SARS-CoV-2和相关冠状病毒的科学文献,成为全球研究人员的重要资源。
    2020年
  • CORD数据集持续更新,增加了新的研究论文和数据,支持全球范围内的COVID-19研究与应对措施。
    2021年
常用场景
经典使用场景
在自然语言处理领域,CORD数据集被广泛用于文本挖掘和信息检索任务。其丰富的医学文献资源为研究人员提供了宝贵的数据支持,特别是在生物医学文本的实体识别、关系抽取和知识图谱构建等方面。通过CORD数据集,研究者能够深入探索医学文本中的复杂结构和语义关系,从而推动相关技术的进步。
解决学术问题
CORD数据集在解决生物医学领域的学术研究问题中发挥了重要作用。它为研究人员提供了大规模、高质量的医学文献数据,有助于解决医学文本中的信息提取难题,如疾病诊断、药物相互作用分析等。此外,CORD数据集还促进了跨学科研究,如结合机器学习和自然语言处理技术,提升医学研究的效率和准确性。
实际应用
在实际应用中,CORD数据集被广泛用于开发和优化医学信息系统。例如,医疗机构可以利用CORD数据集构建智能搜索工具,帮助医生快速获取相关医学文献和研究成果,从而提高诊疗效率。此外,制药公司和研究机构也可以利用该数据集进行药物研发和临床试验设计,加速新药的上市进程。
数据集最近研究
最新研究方向
在生物医学领域,CORD(COVID-19 Open Research Dataset)数据集的最新研究方向主要集中在利用自然语言处理技术进行大规模文本挖掘,以加速新冠病毒相关研究的进展。研究者们通过深度学习模型,如BERT和GPT-3,对CORD数据集中的海量文献进行分析,提取关键信息,识别潜在的治疗方法和疫苗开发线索。此外,跨学科合作也在增强,结合生物信息学和医学知识,进一步提升了数据集的应用价值。这些研究不仅有助于理解病毒的传播机制,还为公共卫生政策的制定提供了科学依据。
相关研究论文
  • 1
    CORD-19: The COVID-19 Open Research DatasetAllen Institute for AI · 2020年
  • 2
    COVID-19 Open Research Dataset (CORD-19): A Comprehensive Machine Learning Approach for COVID-19 ResearchStanford University · 2020年
  • 3
    Exploring the COVID-19 Open Research Dataset: A Machine Learning PerspectiveUniversity of California, Berkeley · 2021年
  • 4
    CORD-19 Dataset Analysis: A Comprehensive Review of COVID-19 ResearchMassachusetts Institute of Technology · 2021年
  • 5
    Leveraging the CORD-19 Dataset for COVID-19 Research: A Data-Driven ApproachHarvard University · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作