herpesvirales-virus-dataset
收藏Herpesvirales Labeled Subset 数据集概述
数据集摘要
本数据集是 hiyata/Virus-Host-Genomes 的一个经过筛选和标注的子集,仅包含疱疹病毒目(Herpesvirales)的完整基因组序列。来自异疱疹病毒科(Alloherpesviridae)和软体动物疱疹病毒科(Malacoherpesviridae)的序列直接从NCBI获取并添加,以扩展对该目下所有三个科的覆盖。
筛选遵循原始数据集随附出版物中描述的方法,排除了部分序列、突变株、未经验证的记录、BAC克隆,并应用了50,000 bp的最小基因组长度阈值。添加了源数据集中不存在的四个疱疹病毒特异性标注列:gc_content、cpg_oe_ratio、latency_site 和 cell_tropism_breadth。
最后更新日期: 2026年3月30日
引用信息
如果使用本数据集,请引用:
@article{carbajo2026sequence, author = {Carbajo, Alan L and Vensko, Taylor A and Pellett, Philip E}, title = {Sequence Based Virus Host Prediction: A Curated Dataset and Generalizable Framework for Training Artificial Intelligence to Identify Viruses of Humans}, journal = {Virus Evolution}, year = {2026}, pages = {veag009}, publisher = {Oxford University Press}, doi = {10.1093/ve/veag009}, url = {https://doi.org/10.1093/ve/veag009} }
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
sequence |
string | 完整基因组序列(仅含ACGT) |
accession |
string | NCBI登录号 |
virus_name |
string | NCBI分类学中的完整病毒名称 |
family |
string | 疱疹病毒科 / 异疱疹病毒科 / 软体动物疱疹病毒科 |
subfamily |
string | α疱疹病毒亚科 / β疱疹病毒亚科 / γ疱疹病毒亚科 |
genus |
string | 分类学属 |
host |
string | 人类 / 非人类 |
standardized_host |
string | 标准化的宿主学名 |
host_category |
string | 哺乳动物 / 鸟类 / 鱼类 / 两栖动物 / 软体动物 |
host_order |
string | 宿主分类学目(例如灵长目、偶蹄目、鲤形目) |
isolation_source |
string | GenBank记录中的组织或样本来源 |
isolation_date |
string | 采集日期 |
strain_name |
string | 毒株或分离株标识符 |
location |
string | 分离的地理位置 |
standardized_location |
string | 国家级的标准化位置 |
genome_length |
int32 | 基因组长度(碱基对) |
gc_content |
float32 | G+C含量分数(0.0–1.0) |
cpg_oe_ratio |
float32 | 观测与预期CpG二核苷酸比率 |
latency_site |
string | 建立潜伏期的细胞类型或组织 |
cell_tropism_breadth |
string | 广泛 / 狭窄 / 未知 |
gemini_annotated |
bool | 是否使用Gemini AI进行标注 |
新增列
以下列是添加到源数据中的,在 hiyata/Virus-Host-Genomes 中不存在:
| 字段 | 描述 |
|---|---|
genome_length |
根据筛选后的序列记录计算得出 |
gc_content |
直接从每个基因组序列计算得出 |
cpg_oe_ratio |
观测到的CpG二核苷酸频率除以预期频率 |
latency_site |
从主要文献中整理;对未表征的毒株应用亚科级别的默认值 |
cell_tropism_breadth |
对裂解性感染期间宿主细胞范围的整理标注 |
关键计算特征
- GC含量 范围从30.6%到78.4%。β疱疹病毒亚科(HCMV谱系)趋向于高GC含量(约55–60%),而异疱疹病毒科则明显富含AT。
- CpG O/E比率 范围从0.229到1.513。低CpG O/E比率表明相对于随机序列存在抑制,这是长期适应脊椎动物宿主的标志,因为在脊椎动物中,未甲基化的CpG二核苷酸会通过TLR9触发先天免疫感应。
- 潜伏位点 标注来自一个涵盖所有特征明确的疱疹病毒的整理查找表,对特征较少的毒株应用了亚科级别的默认值。
潜伏生物学注释
潜伏位点是本数据集中主要的具有生物学意义的趋向性标注,而非组织趋向性。许多疱疹病毒,特别是像CMV这样的β疱疹病毒和像EBV这样的γ疱疹病毒,在裂解复制期间感染广泛的细胞类型,仅凭裂解趋向性无法进行有意义的表征。潜伏储存库是临床和进化相关的约束条件。
| 亚科 | 特征性潜伏位点 |
|---|---|
| α疱疹病毒亚科 | 感觉神经节神经元(三叉神经、背根神经、骶神经) |
| β疱疹病毒亚科 | 单核细胞 / CD34+造血祖细胞 |
| γ疱疹病毒亚科 | 静息记忆B淋巴细胞(或某些病毒中的T淋巴细胞) |
| 异疱疹病毒科 | 很大程度上未知;鱼类疱疹病毒中可能是白细胞 |
| 软体动物疱疹病毒科 | 未知;在OsHV-1中怀疑是血细胞 |
筛选方法
使用随附出版物中描述的相同标准从 hiyata/Virus-Host-Genomes 中筛选序列:排除了部分序列、突变株、未经验证的记录和BAC克隆,并应用了50,000 bp的最小基因组长度阈值以去除片段。仅保留了分类属于疱疹病毒目的记录。
局限性
- 异疱疹病毒科和软体动物疱疹病毒科的潜伏位点标注基于有限的文献,应视为临时性的。
- 抽样反映了NCBI的提交模式。经过充分研究的人类疱疹病毒和具有重要经济意义的动物疱疹病毒(锦鲤疱疹病毒、马立克氏病病毒)相对于野生动物疱疹病毒存在过度代表。
- 对于接收亚科级别默认潜伏标注的记录,应结合适当的不确定性进行解释,特别是对于新型或特征较少的毒株。




