five

Extensive Alignment Dataset of COVID-19 Gene Primers and Probes Across SARS-CoV-2 Variants

收藏
DataCite Commons2025-08-20 更新2025-09-07 收录
下载链接:
https://figshare.com/articles/dataset/Extensive_Alignment_Dataset_of_COVID-19_Gene_Primers_and_Probes_Across_SARS-CoV-2_Variants/26530669
下载链接
链接失效反馈
官方服务:
资源简介:
<b>This dataset contains a comprehensive analysis of COVID-19 genetic sequences focused on four key genes:</b><b> Spike Glycoprotein,</b><b> Envelope Protein,</b><b> Nucleocapsid Protein,</b><b> and 3' UTR(</b><b>3' </b><b>untranslated region).</b><b> It comprises 20 Excel files,</b><b> each holding 100,</b><b>000 samples.</b><b> A Python script was employed to evaluate primer sets using local alignment against sequences from the NCBI database,</b><b> with lineage determination via the Pangolin tool.</b><b> Each Excel file contains four sheets,</b><b> one per gene,</b><b> with columns for accession ID,</b><b> sample name,</b><b> primer sequences,</b><b> alignment metrics,</b><b> and lineage.</b><b> The dataset includes primer analysis for 2 million sequences across all genes and probe analysis for 1 million sequences in a separate set of 10 Excel files. The dataset contains an additional Excel file that contains the count of </b><b>lineage</b><b> samples to which the primer and the probes were aligned.</b>

本数据集针对新型冠状病毒肺炎(COVID-19)的四类关键基因开展了全面的序列分析,涵盖刺突糖蛋白(Spike Glycoprotein)、包膜蛋白(Envelope Protein)、核衣壳蛋白(Nucleocapsid Protein)以及3'非翻译区(3' UTR, 3' untranslated region)。本数据集包含20个Excel文件,每个文件内含100,000条样本。研究人员采用Python脚本,通过与NCBI数据库中的序列进行局部比对来评估引物集,并借助Pangolin工具完成谱系分型。每个Excel文件包含4个工作表,分别对应上述四类基因,工作表内设有登录号(accession ID)、样本名称、引物序列、比对指标以及谱系信息等列。本数据集涵盖了针对所有四类基因的200万条序列的引物分析,以及另外10个Excel文件中100万条序列的探针分析。此外,本数据集还包含一个额外的Excel文件,用于统计与引物及探针完成比对的谱系样本数量。
提供机构:
figshare
创建时间:
2024-08-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作