five

CORD-19-Vaccination

收藏
arXiv2024-07-26 更新2024-07-30 收录
下载链接:
https://github.com/manisha-Singh-UW/CORD-19-Vaccination
下载链接
链接失效反馈
官方服务:
资源简介:
CORD-19-Vaccination数据集由华盛顿大学创建,专门针对COVID-19疫苗研究。该数据集包含30,000篇研究论文,来源于CORD-19数据集,经过筛选和增强,增加了语言细节、作者人口统计、关键词和主题等列。数据集的创建过程包括信息提取、数据增强和任务实施三个阶段。该数据集主要应用于自然语言处理领域,如文本挖掘、信息提取和问答系统,旨在解决COVID-19疫苗研究中的具体问题。

The CORD-19-Vaccination dataset was created by the University of Washington, specifically targeting COVID-19 vaccination research. It contains 30,000 research papers sourced from the CORD-19 dataset, which has been screened and augmented, with additional columns including linguistic details, author demographics, keywords, and topics. The creation process of this dataset consists of three stages: information extraction, data augmentation, and task implementation. This dataset is primarily applied in the field of natural language processing, covering scenarios such as text mining, information extraction, and question answering systems, with the aim of addressing specific problems in COVID-19 vaccination research.
提供机构:
华盛顿大学
创建时间:
2024-07-26
原始信息汇总

CORD-19-Vaccination 数据集概述

数据集下载

数据集可通过以下两种方式获取:

  1. 手动下载

    • 从GitHub仓库下载数据集文件。
    • 将文件解压到目标文件夹。
  2. Python代码下载

    • 使用提供的Python代码自动下载和解压数据集。

Python import requests import zipfile

url = https://github.com/manisha-Singh-UW/CORD-19-Vaccination/raw/main/dataset/cord_19_vaccination_metadata.zip

req = requests.get(url)

if req.status_code != 200: print(f[error]HTTP error: {req.url} "Status Code:" {req.status_code}) else: filename = url.split(/)[-1]

with open(filename,wb) as fp:
    fp.write(req.content)

print(fFile {filename} successfully downloaded to local folder)

with zipfile.ZipFile(filename, r) as zip_f:
    zip_f.extractall(.)

print(fFile {filename} successfully unzipped to local folder)

数据集读取示例

以下代码展示了如何将数据集加载到Pandas DataFrame中:

python import pandas as pd

dataset_path = cord_19_vaccination_metadata.csv

dataset_df = pd.read_csv(dataset_path, encoding=utf-8)

print(dataset_df.head()) print(dataset_df.info())

数据集结构与组成

数据集包含一个metadata.csv文件,其字段如下:

列ID 列描述 数据类型 数据来源 示例值
cord_uid 为每篇CORD-19论文分配的唯一标识符 string CORD-19 d1pd09zj
sha 与CORD-19论文关联的所有PDF的SHA1 string CORD-19 1cee4a0d0e823379ec34a462a04561bf4cd736a2
source_x 接收论文的来源名称 string CORD-19 PMC
title 论文标题 string CORD-19 Synthetic carbohydrate-based vaccines: challenges and opportunities
doi 论文DOI string CORD-19 10.1186/s12929-019-0591-0
pmcid 论文在PubMed Central的ID string CORD-19 PMC6941340
pubmed_id 论文在PubMed的ID integer CORD-19 31900143
license 论文的许可 string CORD-19 cc-by
abstract 论文摘要 string CORD-19 Glycoconjugate vaccines based on bacterial capsular polysaccharides (CPS) have been extremely successful in preventing bacterial infections...
publish_time 论文发表日期 string CORD-19 1/3/2020
authors 论文作者 string CORD-19 Mettu, Ravinder; Chen, Chiang-Yun; Wu, Chung-Yi
journal 论文期刊 string CORD-19 J Biomed Sci
mag_id 论文在Microsoft Academic Graph中的ID(已弃用) integer CORD-19
who_covidence_id 论文在WHO中的ID string CORD-19
arxiv_id 论文在arXiv中的ID string CORD-19
pdf_json_files PDF文件解析为JSON的路径 string CORD-19 document_parses/pdf_json/1cee4a0d0e823379ec34a462a04561bf4cd736a2.json
pmc_json_files PMC全文XML文件解析为JSON的路径 string CORD-19 document_parses/pmc_json/PMC6941340.xml.json
url 论文相关URL string CORD-19 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6941340/
s2_id 论文在Semantic Scholar中的ID string CORD-19
lang_id 论文语言标识 string Data Augmentation en
lang_id_confidence 语言标识置信度 string Data Augmentation 0.9167
lang_id_predictions 语言标识预测 string Data Augmentation en=0.9167, id=0.0055, fr=0.0043
aff_lab_inst 第一作者的实验室/机构 string Data Augmentation University of Maryland School of Medicine
aff_location 实验室/机构位置 string Data Augmentation postCode=21201; region=MD; settlement=Baltimore
aff_country 实验室/机构国家 string Data Augmentation USA
keywords 关键词 string Data Augmentation DNA vaccine; archaeosome; DNA; recombinant DNA vaccine; pDNA - surface localized archaeosome; archaeosome vaccines group; cells; DNA vaccine candidate; localized archaeosome; vaccine; archaeosome vaccines; groups; plasmid DNA; gene DNA vaccine; PBS control groups; recombinant gene; pDNA-encapsulated archaeosomes; gene; mice; control groups
labeled_abstract 标签化摘要 string Data Augmentation BACKGROUND: Glycoconjugate vaccines based on bacterial capsular polysaccharides (CPS) have been extremely successful in preventing bacterial infections...
topic 论文主题 string Data Augmentation Vaccine development; Vaccination side-effects / Treatments
topic_index 主题索引 integer Data Augmentation 0; 1; 2; 3; 4
topic_prob 主题概率 float Data Augmentation 0.524614
std_first_auth_country 标准化第一作者国家 string Data Augmentation Taiwan; United States of America

数据集元数据

  • 总条目数:29286条
  • 总列数:32列

列详细信息:

# 列名 非空值计数 数据类型
0 index 29286 non-null int64
1 cord_uid 29286 non-null object
2 sha 28749 non-null object
3 source_x 29286 non-null object
4 title 29286 non-null object
5 doi 28675 non-null object
6 pmcid 24256 non-null object
7 pubmed_id 23148 non-null float64
8 license 29286 non-null object
9 abstract 29286 non-null object
10 publish_time 29286 non-null object
11 authors 29237 non-null object
12 journal 25696 non-null object
13 mag_id 0 non-null float64
14 who_covidence_id 0 non-null float64
15 arxiv_id 667 non-null float64
16 pdf_json_files 28749 non-null object
17 pmc_json_files 21942 non-null object
18 url 29286 non-null object
19 s2_id 27511 non-null float64
20 lang_id 29286 non-null object
21 lang_id_confidence 29286 non-null float64
22 lang_id_predictions 29286 non-null object
23 aff_lab_inst 28749 non-null object
24 aff_location 19465 non-null object
25 aff_country 18525 non-null object
26 keywords 29286 non-null object
27 labeled_abstract 29286 non-null object
28 topic 29286 non-null object
29 topic_index 29286 non-null int64
30 topic_prob 29286 non-null float64
31 std_first_auth_country 27303 non-null object
搜集汇总
数据集介绍
main_image_url
构建方式
CORD-19-Vaccination数据集的构建始于对CORD-19数据集的筛选与增强。首先,通过设定出版时间晚于2020年,并在标题或摘要中包含‘疫苗’或‘疫苗接种’等关键词的筛选条件,从CORD-19中提取出相关论文。随后,利用Facebook的fastText模型识别语言,通过Google的搜索API增强作者所属国家信息,使用‘Yake’库提取关键词,并应用LDA算法进行主题建模,从而丰富了数据集的内容。
特点
该数据集的特点在于其专注于COVID-19疫苗研究领域的论文,包含了大约30k篇研究论文的元数据。数据集经过语言识别、作者信息增强、关键词提取和主题建模等步骤的处理,为用户提供了丰富的信息维度。此外,该数据集支持‘问题回答’和‘序列句子分类’等自然语言处理任务,展现出其在疫苗研究领域的应用价值。
使用方法
用户可以通过访问GitHub上的数据集链接来获取CORD-19-Vaccination数据集。在获取数据后,用户可以利用该数据集进行文本挖掘、信息提取、问题回答等任务。例如,可以利用数据集中的关键词和主题信息来缩小搜索范围,提高信息检索的准确性。此外,数据集还提供了预训练的BERT-PubMed模型,可用于序列句子分类任务,进一步提升了数据集的实用性。
背景与挑战
背景概述
‘CORD-19-Vaccination’数据集是由Manisha Singh等研究人员在2020年构建的,旨在为特定于COVID-19疫苗研究领域的科学家提供专门的学术文献资源。该数据集基于‘CORD-19’数据集,通过精细筛选与疫苗相关的论文,并增加了语言细节、作者人口统计信息、关键词和主题等新列,从而丰富了原始数据集的信息。‘CORD-19-Vaccination’包含约30k篇研究论文的元数据,是迄今为止该领域最大的已知 curated 资源,可为自然语言处理研究如文本挖掘、信息提取和问答系统提供重要价值。
当前挑战
在构建‘CORD-19-Vaccination’数据集的过程中,研究人员面临了多个挑战。首先,如何在庞大的‘CORD-19’数据集中高效筛选出与疫苗相关的论文是一个挑战。其次,数据集的构建过程中,如何准确提取和验证作者所属机构的国家信息也是一个难点。此外,为了提高数据集的实用性,研究人员还实施了问答系统和句子分类任务,这些任务的执行和评估也带来了技术上的挑战。
常用场景
经典使用场景
CORD-19-Vaccination 数据集的经典使用场景在于支持针对COVID-19疫苗研究的文本挖掘、信息提取和问答等自然语言处理任务。该数据集通过筛选和增强CORD-19数据集中的相关论文,为研究人员提供了一个专注于疫苗研究领域的丰富资源。
实际应用
在实际应用中,CORD-19-Vaccination 数据集可用于构建问答系统,辅助医疗专家快速查找疫苗相关的论文和答案;同时,它也可以用于训练文本分类模型,帮助自动化地识别和分类医学摘要中的关键信息。
衍生相关工作
基于CORD-19-Vaccination 数据集,研究者们已经开展了一系列相关工作,包括但不限于构建疫苗研究领域的知识图谱、开发自动化问答系统、以及进行文本情感分析和趋势预测等。这些衍生工作进一步扩展了数据集的应用范围,推动了COVID-19疫苗研究的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作