COVID-19 Production Dataset

github2022-02-04 更新2024-05-31 收录

下载链接：

https://github.com/breno-madruga/dib-covid-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从arXiv、bioRxiv、medRxiv、PubMed和Scopus收集的COVID-19相关手稿数据，用于研究分析。数据集特征包括手稿的标识符、DOI、标题、摘要、出版日期、引用次数、语言、生产类型、作者关键词、索引术语等。

This dataset comprises COVID-19 related manuscript data collected from arXiv, bioRxiv, medRxiv, PubMed, and Scopus, intended for research and analysis. The dataset features include manuscript identifiers, DOI, title, abstract, publication date, citation count, language, production type, author keywords, and index terms.

创建时间：

2020-07-08

原始信息汇总

数据集概述

数据集名称

DiB Covid-19 Production Dataset

数据集描述

该数据集用于版本控制生成COVID-19论文集所需的源代码，该论文集已发表于DiB（Data in Brief）期刊。

数据来源

arXiv
bioRxiv/medRxiv
PubMed
Scopus

数据集输出

最终数据集是arXiv、bioRxiv、medRxiv、PubMed和Scopus数据集的组合，通过本仓库中定义的DVC管道生成。

数据集特征

id (标识符)
doi (DOI)
title (标题)
abstract (摘要)
publication_date (出版日期)
citation_num (引用次数)
language (语言)
production_type (来源类别)
source_type (来源分类，production_type的简短版本)
auth_keywords (作者定义的关键词列表)
index_terms (Scopus定义的索引词列表)
issn (ISSN/E-ISSN)
vehicle_name (出版来源名称)
publisher (出版商名称)
affiliations (隶属关系列表，包括ID、国家和隶属关系名称)
subject_areas (学科/研究领域列表)
authors (作者列表，包括ID和姓名)
author_affil (作者及其隶属关系的组织列表)
ref_count (参考文献数量)
references (参考文献数据列表，包括作者、标题、DOI和ID)
data_source (数据源数据库)
period (出版年月，从publication_date提取)

数据集生成步骤

下载原始数据并放置于data/raw文件夹。
执行预处理管道，使用命令dvc repro。

引用信息

DOI: 10.1016/j.dib.2020.106178
引用格式：Santos, Breno Santana; Silva, Ivanovitch; Ribeiro-Dantas, Marcel da Câmara; Alves, Gisliany; Endo, Patricia Takako; Lima, Luciana. COVID-19: A scholarly production dataset report for research analysis. Data in Brief, Volume 32, 2020.

搜集汇总

数据集介绍

构建方式

COVID-19 Production Dataset的构建过程基于多个权威学术数据库的整合，包括arXiv、bioRxiv/medRxiv、PubMed和Scopus。通过Jupyter Notebooks在“notebooks/collect”文件夹中收集原始数据，并利用DVC（Data Version Control）管道进行数据处理和整合。最终生成的数据集包含了来自这些平台的学术文献的详细信息，涵盖了从文献标识符到作者信息、引用次数、关键词等多个维度的数据。

特点

该数据集的特点在于其广泛的数据来源和丰富的信息维度。它不仅包含了文献的基本信息如标题、摘要、出版日期，还提供了详细的作者信息、引用数据、关键词索引等。此外，数据集还特别标注了每篇文献的来源数据库和出版类型，使得研究者能够从多个角度对COVID-19相关研究进行深入分析。

使用方法

使用COVID-19 Production Dataset时，用户首先需要从Google Drive下载原始数据并放置于“data/raw”文件夹中。随后，通过执行DVC管道命令`dvc repro`来启动数据预处理流程，生成最终的数据集。这一过程确保了数据的可重复性和一致性，为研究者提供了一个可靠的工具来探索和分析COVID-19相关的学术文献。

背景与挑战

背景概述

COVID-19 Production Dataset 是由Breno Santana Santos等人于2020年创建的一个学术文献数据集，旨在为COVID-19相关研究提供全面的文献资源。该数据集整合了来自arXiv、bioRxiv/medRxiv、PubMed和Scopus等多个权威学术平台的数据，涵盖了与COVID-19相关的研究论文的标题、摘要、作者信息、引用次数等关键特征。该数据集的发布为研究人员提供了一个统一的平台，用于分析和挖掘COVID-19研究领域的最新进展和趋势。其研究成果发表在《Data in Brief》期刊上，对全球范围内的COVID-19研究产生了深远影响。

当前挑战

COVID-19 Production Dataset 的构建面临多重挑战。首先，数据来源的多样性和异构性增加了数据整合的难度，不同平台的数据格式和标准不一，需要进行复杂的预处理和清洗。其次，COVID-19研究的快速发展导致数据量庞大且更新频繁，如何高效地收集和处理这些动态数据成为一大难题。此外，确保数据的准确性和完整性也是一个重要挑战，特别是在处理作者信息、引用数据和关键词提取时，需要克服数据缺失和噪声问题。最后，数据集的构建依赖于DVC（Data Version Control）工具，这对用户的技术能力提出了较高要求，增加了数据复现和使用的复杂性。

常用场景

经典使用场景

COVID-19 Production Dataset 主要用于研究COVID-19疫情期间的学术产出情况。该数据集整合了来自arXiv、bioRxiv/medRxiv、PubMed和Scopus等多个学术平台的文献数据，涵盖了论文的标题、摘要、发表时间、引用次数等关键信息。研究人员可以通过该数据集分析COVID-19相关研究的趋势、热点领域以及学术合作模式，从而为公共卫生政策的制定提供数据支持。

衍生相关工作

基于COVID-19 Production Dataset，许多经典研究工作得以展开。例如，研究人员利用该数据集分析了COVID-19研究的国际合作模式，揭示了不同国家在疫情研究中的贡献和影响力。此外，该数据集还被用于开发文献推荐系统，帮助研究人员快速找到与其研究领域相关的COVID-19文献。这些衍生工作不仅丰富了疫情研究的视角，也为未来的学术研究提供了宝贵的参考。

数据集最近研究