CORD-19-Vaccination
收藏arXiv2024-07-26 更新2024-07-30 收录
下载链接:
https://github.com/manisha-Singh-UW/CORD-19-Vaccination
下载链接
链接失效反馈官方服务:
资源简介:
CORD-19-Vaccination数据集由华盛顿大学创建,专门针对COVID-19疫苗研究。该数据集包含30,000篇研究论文,来源于CORD-19数据集,经过筛选和增强,增加了语言细节、作者人口统计、关键词和主题等列。数据集的创建过程包括信息提取、数据增强和任务实施三个阶段。该数据集主要应用于自然语言处理领域,如文本挖掘、信息提取和问答系统,旨在解决COVID-19疫苗研究中的具体问题。
The CORD-19-Vaccination dataset was created by the University of Washington, specifically targeting COVID-19 vaccination research. It contains 30,000 research papers sourced from the CORD-19 dataset, which has been screened and augmented, with additional columns including linguistic details, author demographics, keywords, and topics. The creation process of this dataset consists of three stages: information extraction, data augmentation, and task implementation. This dataset is primarily applied in the field of natural language processing, covering scenarios such as text mining, information extraction, and question answering systems, with the aim of addressing specific problems in COVID-19 vaccination research.
提供机构:
华盛顿大学
创建时间:
2024-07-26
原始信息汇总
CORD-19-Vaccination 数据集概述
数据集下载
数据集可通过以下两种方式获取:
-
手动下载:
- 从GitHub仓库下载数据集文件。
- 将文件解压到目标文件夹。
-
Python代码下载:
- 使用提供的Python代码自动下载和解压数据集。
Python import requests import zipfile
url = https://github.com/manisha-Singh-UW/CORD-19-Vaccination/raw/main/dataset/cord_19_vaccination_metadata.zip
req = requests.get(url)
if req.status_code != 200: print(f[error]HTTP error: {req.url} "Status Code:" {req.status_code}) else: filename = url.split(/)[-1]
with open(filename,wb) as fp:
fp.write(req.content)
print(fFile {filename} successfully downloaded to local folder)
with zipfile.ZipFile(filename, r) as zip_f:
zip_f.extractall(.)
print(fFile {filename} successfully unzipped to local folder)
数据集读取示例
以下代码展示了如何将数据集加载到Pandas DataFrame中:
python import pandas as pd
dataset_path = cord_19_vaccination_metadata.csv
dataset_df = pd.read_csv(dataset_path, encoding=utf-8)
print(dataset_df.head()) print(dataset_df.info())
数据集结构与组成
数据集包含一个metadata.csv文件,其字段如下:
| 列ID | 列描述 | 数据类型 | 数据来源 | 示例值 |
|---|---|---|---|---|
| cord_uid | 为每篇CORD-19论文分配的唯一标识符 | string |
CORD-19 | d1pd09zj |
| sha | 与CORD-19论文关联的所有PDF的SHA1 | string |
CORD-19 | 1cee4a0d0e823379ec34a462a04561bf4cd736a2 |
| source_x | 接收论文的来源名称 | string |
CORD-19 | PMC |
| title | 论文标题 | string |
CORD-19 | Synthetic carbohydrate-based vaccines: challenges and opportunities |
| doi | 论文DOI | string |
CORD-19 | 10.1186/s12929-019-0591-0 |
| pmcid | 论文在PubMed Central的ID | string |
CORD-19 | PMC6941340 |
| pubmed_id | 论文在PubMed的ID | integer |
CORD-19 | 31900143 |
| license | 论文的许可 | string |
CORD-19 | cc-by |
| abstract | 论文摘要 | string |
CORD-19 | Glycoconjugate vaccines based on bacterial capsular polysaccharides (CPS) have been extremely successful in preventing bacterial infections... |
| publish_time | 论文发表日期 | string |
CORD-19 | 1/3/2020 |
| authors | 论文作者 | string |
CORD-19 | Mettu, Ravinder; Chen, Chiang-Yun; Wu, Chung-Yi |
| journal | 论文期刊 | string |
CORD-19 | J Biomed Sci |
| mag_id | 论文在Microsoft Academic Graph中的ID(已弃用) | integer |
CORD-19 | |
| who_covidence_id | 论文在WHO中的ID | string |
CORD-19 | |
| arxiv_id | 论文在arXiv中的ID | string |
CORD-19 | |
| pdf_json_files | PDF文件解析为JSON的路径 | string |
CORD-19 | document_parses/pdf_json/1cee4a0d0e823379ec34a462a04561bf4cd736a2.json |
| pmc_json_files | PMC全文XML文件解析为JSON的路径 | string |
CORD-19 | document_parses/pmc_json/PMC6941340.xml.json |
| url | 论文相关URL | string |
CORD-19 | https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6941340/ |
| s2_id | 论文在Semantic Scholar中的ID | string |
CORD-19 | |
| lang_id | 论文语言标识 | string |
Data Augmentation | en |
| lang_id_confidence | 语言标识置信度 | string |
Data Augmentation | 0.9167 |
| lang_id_predictions | 语言标识预测 | string |
Data Augmentation | en=0.9167, id=0.0055, fr=0.0043 |
| aff_lab_inst | 第一作者的实验室/机构 | string |
Data Augmentation | University of Maryland School of Medicine |
| aff_location | 实验室/机构位置 | string |
Data Augmentation | postCode=21201; region=MD; settlement=Baltimore |
| aff_country | 实验室/机构国家 | string |
Data Augmentation | USA |
| keywords | 关键词 | string |
Data Augmentation | DNA vaccine; archaeosome; DNA; recombinant DNA vaccine; pDNA - surface localized archaeosome; archaeosome vaccines group; cells; DNA vaccine candidate; localized archaeosome; vaccine; archaeosome vaccines; groups; plasmid DNA; gene DNA vaccine; PBS control groups; recombinant gene; pDNA-encapsulated archaeosomes; gene; mice; control groups |
| labeled_abstract | 标签化摘要 | string |
Data Augmentation | BACKGROUND: Glycoconjugate vaccines based on bacterial capsular polysaccharides (CPS) have been extremely successful in preventing bacterial infections... |
| topic | 论文主题 | string |
Data Augmentation | Vaccine development; Vaccination side-effects / Treatments |
| topic_index | 主题索引 | integer |
Data Augmentation | 0; 1; 2; 3; 4 |
| topic_prob | 主题概率 | float |
Data Augmentation | 0.524614 |
| std_first_auth_country | 标准化第一作者国家 | string |
Data Augmentation | Taiwan; United States of America |
数据集元数据
- 总条目数:29286条
- 总列数:32列
列详细信息:
| # | 列名 | 非空值计数 | 数据类型 |
|---|---|---|---|
| 0 | index | 29286 non-null | int64 |
| 1 | cord_uid | 29286 non-null | object |
| 2 | sha | 28749 non-null | object |
| 3 | source_x | 29286 non-null | object |
| 4 | title | 29286 non-null | object |
| 5 | doi | 28675 non-null | object |
| 6 | pmcid | 24256 non-null | object |
| 7 | pubmed_id | 23148 non-null | float64 |
| 8 | license | 29286 non-null | object |
| 9 | abstract | 29286 non-null | object |
| 10 | publish_time | 29286 non-null | object |
| 11 | authors | 29237 non-null | object |
| 12 | journal | 25696 non-null | object |
| 13 | mag_id | 0 non-null | float64 |
| 14 | who_covidence_id | 0 non-null | float64 |
| 15 | arxiv_id | 667 non-null | float64 |
| 16 | pdf_json_files | 28749 non-null | object |
| 17 | pmc_json_files | 21942 non-null | object |
| 18 | url | 29286 non-null | object |
| 19 | s2_id | 27511 non-null | float64 |
| 20 | lang_id | 29286 non-null | object |
| 21 | lang_id_confidence | 29286 non-null | float64 |
| 22 | lang_id_predictions | 29286 non-null | object |
| 23 | aff_lab_inst | 28749 non-null | object |
| 24 | aff_location | 19465 non-null | object |
| 25 | aff_country | 18525 non-null | object |
| 26 | keywords | 29286 non-null | object |
| 27 | labeled_abstract | 29286 non-null | object |
| 28 | topic | 29286 non-null | object |
| 29 | topic_index | 29286 non-null | int64 |
| 30 | topic_prob | 29286 non-null | float64 |
| 31 | std_first_auth_country | 27303 non-null | object |
搜集汇总
数据集介绍

构建方式
CORD-19-Vaccination数据集的构建始于对CORD-19数据集的筛选与增强。首先,通过设定出版时间晚于2020年,并在标题或摘要中包含‘疫苗’或‘疫苗接种’等关键词的筛选条件,从CORD-19中提取出相关论文。随后,利用Facebook的fastText模型识别语言,通过Google的搜索API增强作者所属国家信息,使用‘Yake’库提取关键词,并应用LDA算法进行主题建模,从而丰富了数据集的内容。
特点
该数据集的特点在于其专注于COVID-19疫苗研究领域的论文,包含了大约30k篇研究论文的元数据。数据集经过语言识别、作者信息增强、关键词提取和主题建模等步骤的处理,为用户提供了丰富的信息维度。此外,该数据集支持‘问题回答’和‘序列句子分类’等自然语言处理任务,展现出其在疫苗研究领域的应用价值。
使用方法
用户可以通过访问GitHub上的数据集链接来获取CORD-19-Vaccination数据集。在获取数据后,用户可以利用该数据集进行文本挖掘、信息提取、问题回答等任务。例如,可以利用数据集中的关键词和主题信息来缩小搜索范围,提高信息检索的准确性。此外,数据集还提供了预训练的BERT-PubMed模型,可用于序列句子分类任务,进一步提升了数据集的实用性。
背景与挑战
背景概述
‘CORD-19-Vaccination’数据集是由Manisha Singh等研究人员在2020年构建的,旨在为特定于COVID-19疫苗研究领域的科学家提供专门的学术文献资源。该数据集基于‘CORD-19’数据集,通过精细筛选与疫苗相关的论文,并增加了语言细节、作者人口统计信息、关键词和主题等新列,从而丰富了原始数据集的信息。‘CORD-19-Vaccination’包含约30k篇研究论文的元数据,是迄今为止该领域最大的已知 curated 资源,可为自然语言处理研究如文本挖掘、信息提取和问答系统提供重要价值。
当前挑战
在构建‘CORD-19-Vaccination’数据集的过程中,研究人员面临了多个挑战。首先,如何在庞大的‘CORD-19’数据集中高效筛选出与疫苗相关的论文是一个挑战。其次,数据集的构建过程中,如何准确提取和验证作者所属机构的国家信息也是一个难点。此外,为了提高数据集的实用性,研究人员还实施了问答系统和句子分类任务,这些任务的执行和评估也带来了技术上的挑战。
常用场景
经典使用场景
CORD-19-Vaccination 数据集的经典使用场景在于支持针对COVID-19疫苗研究的文本挖掘、信息提取和问答等自然语言处理任务。该数据集通过筛选和增强CORD-19数据集中的相关论文,为研究人员提供了一个专注于疫苗研究领域的丰富资源。
实际应用
在实际应用中,CORD-19-Vaccination 数据集可用于构建问答系统,辅助医疗专家快速查找疫苗相关的论文和答案;同时,它也可以用于训练文本分类模型,帮助自动化地识别和分类医学摘要中的关键信息。
衍生相关工作
基于CORD-19-Vaccination 数据集,研究者们已经开展了一系列相关工作,包括但不限于构建疫苗研究领域的知识图谱、开发自动化问答系统、以及进行文本情感分析和趋势预测等。这些衍生工作进一步扩展了数据集的应用范围,推动了COVID-19疫苗研究的发展。
以上内容由遇见数据集搜集并总结生成



