Extensive Alignment Dataset of COVID-19 Gene Primers and Probes Across SARS-CoV-2 Variants

Name: Extensive Alignment Dataset of COVID-19 Gene Primers and Probes Across SARS-CoV-2 Variants
Creator: figshare
Published: 2025-08-20 07:21:14
License: 暂无描述

DataCite Commons2025-08-20 更新2025-09-07 收录

下载链接：

https://figshare.com/articles/dataset/Extensive_Alignment_Dataset_of_COVID-19_Gene_Primers_and_Probes_Across_SARS-CoV-2_Variants/26530669

下载链接

链接失效反馈

官方服务：

资源简介：

This dataset contains a comprehensive analysis of COVID-19 genetic sequences focused on four key genes: Spike Glycoprotein, Envelope Protein, Nucleocapsid Protein, and 3' UTR(3' untranslated region). It comprises 20 Excel files, each holding 100,000 samples. A Python script was employed to evaluate primer sets using local alignment against sequences from the NCBI database, with lineage determination via the Pangolin tool. Each Excel file contains four sheets, one per gene, with columns for accession ID, sample name, primer sequences, alignment metrics, and lineage. The dataset includes primer analysis for 2 million sequences across all genes and probe analysis for 1 million sequences in a separate set of 10 Excel files. The dataset contains an additional Excel file that contains the count of lineage samples to which the primer and the probes were aligned.

本数据集针对新型冠状病毒肺炎（COVID-19）的四类关键基因开展了全面的序列分析，涵盖刺突糖蛋白（Spike Glycoprotein）、包膜蛋白（Envelope Protein）、核衣壳蛋白（Nucleocapsid Protein）以及3'非翻译区（3' UTR, 3' untranslated region）。本数据集包含20个Excel文件，每个文件内含100,000条样本。研究人员采用Python脚本，通过与NCBI数据库中的序列进行局部比对来评估引物集，并借助Pangolin工具完成谱系分型。每个Excel文件包含4个工作表，分别对应上述四类基因，工作表内设有登录号（accession ID）、样本名称、引物序列、比对指标以及谱系信息等列。本数据集涵盖了针对所有四类基因的200万条序列的引物分析，以及另外10个Excel文件中100万条序列的探针分析。此外，本数据集还包含一个额外的Excel文件，用于统计与引物及探针完成比对的谱系样本数量。

提供机构：

figshare

创建时间：

2024-08-10

5,000+

优质数据集

54 个

任务类型

进入经典数据集