COVID-19 Production Dataset
收藏github2022-02-04 更新2024-05-31 收录
下载链接:
https://github.com/breno-madruga/dib-covid-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从arXiv、bioRxiv、medRxiv、PubMed和Scopus收集的COVID-19相关手稿数据,用于研究分析。数据集特征包括手稿的标识符、DOI、标题、摘要、出版日期、引用次数、语言、生产类型、作者关键词、索引术语等。
This dataset comprises COVID-19 related manuscript data collected from arXiv, bioRxiv, medRxiv, PubMed, and Scopus, intended for research and analysis. The dataset features include manuscript identifiers, DOI, title, abstract, publication date, citation count, language, production type, author keywords, and index terms.
创建时间:
2020-07-08
原始信息汇总
数据集概述
数据集名称
DiB Covid-19 Production Dataset
数据集描述
该数据集用于版本控制生成COVID-19论文集所需的源代码,该论文集已发表于DiB(Data in Brief)期刊。
数据来源
- arXiv
- bioRxiv/medRxiv
- PubMed
- Scopus
数据集输出
最终数据集是arXiv、bioRxiv、medRxiv、PubMed和Scopus数据集的组合,通过本仓库中定义的DVC管道生成。
数据集特征
- id (标识符)
- doi (DOI)
- title (标题)
- abstract (摘要)
- publication_date (出版日期)
- citation_num (引用次数)
- language (语言)
- production_type (来源类别)
- source_type (来源分类,production_type的简短版本)
- auth_keywords (作者定义的关键词列表)
- index_terms (Scopus定义的索引词列表)
- issn (ISSN/E-ISSN)
- vehicle_name (出版来源名称)
- publisher (出版商名称)
- affiliations (隶属关系列表,包括ID、国家和隶属关系名称)
- subject_areas (学科/研究领域列表)
- authors (作者列表,包括ID和姓名)
- author_affil (作者及其隶属关系的组织列表)
- ref_count (参考文献数量)
- references (参考文献数据列表,包括作者、标题、DOI和ID)
- data_source (数据源数据库)
- period (出版年月,从publication_date提取)
数据集生成步骤
- 下载原始数据并放置于
data/raw文件夹。 - 执行预处理管道,使用命令
dvc repro。
引用信息
- DOI: 10.1016/j.dib.2020.106178
- 引用格式:Santos, Breno Santana; Silva, Ivanovitch; Ribeiro-Dantas, Marcel da Câmara; Alves, Gisliany; Endo, Patricia Takako; Lima, Luciana. COVID-19: A scholarly production dataset report for research analysis. Data in Brief, Volume 32, 2020.
搜集汇总
数据集介绍

构建方式
COVID-19 Production Dataset的构建过程基于多个权威学术数据库的整合,包括arXiv、bioRxiv/medRxiv、PubMed和Scopus。通过Jupyter Notebooks在“notebooks/collect”文件夹中收集原始数据,并利用DVC(Data Version Control)管道进行数据处理和整合。最终生成的数据集包含了来自这些平台的学术文献的详细信息,涵盖了从文献标识符到作者信息、引用次数、关键词等多个维度的数据。
特点
该数据集的特点在于其广泛的数据来源和丰富的信息维度。它不仅包含了文献的基本信息如标题、摘要、出版日期,还提供了详细的作者信息、引用数据、关键词索引等。此外,数据集还特别标注了每篇文献的来源数据库和出版类型,使得研究者能够从多个角度对COVID-19相关研究进行深入分析。
使用方法
使用COVID-19 Production Dataset时,用户首先需要从Google Drive下载原始数据并放置于“data/raw”文件夹中。随后,通过执行DVC管道命令`dvc repro`来启动数据预处理流程,生成最终的数据集。这一过程确保了数据的可重复性和一致性,为研究者提供了一个可靠的工具来探索和分析COVID-19相关的学术文献。
背景与挑战
背景概述
COVID-19 Production Dataset 是由Breno Santana Santos等人于2020年创建的一个学术文献数据集,旨在为COVID-19相关研究提供全面的文献资源。该数据集整合了来自arXiv、bioRxiv/medRxiv、PubMed和Scopus等多个权威学术平台的数据,涵盖了与COVID-19相关的研究论文的标题、摘要、作者信息、引用次数等关键特征。该数据集的发布为研究人员提供了一个统一的平台,用于分析和挖掘COVID-19研究领域的最新进展和趋势。其研究成果发表在《Data in Brief》期刊上,对全球范围内的COVID-19研究产生了深远影响。
当前挑战
COVID-19 Production Dataset 的构建面临多重挑战。首先,数据来源的多样性和异构性增加了数据整合的难度,不同平台的数据格式和标准不一,需要进行复杂的预处理和清洗。其次,COVID-19研究的快速发展导致数据量庞大且更新频繁,如何高效地收集和处理这些动态数据成为一大难题。此外,确保数据的准确性和完整性也是一个重要挑战,特别是在处理作者信息、引用数据和关键词提取时,需要克服数据缺失和噪声问题。最后,数据集的构建依赖于DVC(Data Version Control)工具,这对用户的技术能力提出了较高要求,增加了数据复现和使用的复杂性。
常用场景
经典使用场景
COVID-19 Production Dataset 主要用于研究COVID-19疫情期间的学术产出情况。该数据集整合了来自arXiv、bioRxiv/medRxiv、PubMed和Scopus等多个学术平台的文献数据,涵盖了论文的标题、摘要、发表时间、引用次数等关键信息。研究人员可以通过该数据集分析COVID-19相关研究的趋势、热点领域以及学术合作模式,从而为公共卫生政策的制定提供数据支持。
衍生相关工作
基于COVID-19 Production Dataset,许多经典研究工作得以展开。例如,研究人员利用该数据集分析了COVID-19研究的国际合作模式,揭示了不同国家在疫情研究中的贡献和影响力。此外,该数据集还被用于开发文献推荐系统,帮助研究人员快速找到与其研究领域相关的COVID-19文献。这些衍生工作不仅丰富了疫情研究的视角,也为未来的学术研究提供了宝贵的参考。
数据集最近研究
最新研究方向
COVID-19 Production Dataset作为COVID-19研究领域的重要数据资源,近年来在学术界的应用日益广泛。该数据集整合了来自arXiv、bioRxiv/medRxiv、PubMed和Scopus等多个权威平台的学术文献,涵盖了丰富的元数据信息,如文献标题、摘要、作者、引用次数等。当前的研究方向主要集中在利用该数据集进行COVID-19相关文献的文本挖掘、知识图谱构建以及科研趋势分析。特别是在疫情爆发初期,该数据集为快速识别研究热点、追踪科研进展提供了重要支持。此外,结合自然语言处理技术,研究者们进一步探索了文献间的引用关系、作者合作网络以及跨学科研究的动态演变。这些研究不仅深化了对COVID-19科研生态的理解,也为未来公共卫生危机的应对策略提供了数据驱动的决策依据。
以上内容由遇见数据集搜集并总结生成



