five

herpesvirales-virus-dataset

收藏
Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/hiyata/herpesvirales-virus-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个经过筛选和标记的疱疹病毒基因组序列子集,源自'hiyata/Virus-Host-Genomes'数据集,仅包含疱疹病毒目(Herpesvirales)的完整基因组序列。数据集扩展了Alloherpesviridae和Malacoherpesviridae家族的序列,覆盖了该目下的所有三个家族。过滤方法遵循原始数据集的方法,排除了部分序列、突变株、未验证记录和BAC克隆,并应用了最小基因组长度阈值50,000 bp。数据集添加了四个新的注释列:'gc_content'、'cpg_oe_ratio'、'latency_site'和'cell_tropism_breadth',这些列在源数据集中不存在。数据集适用于文本分类和特征提取任务,特别适合生物学、病毒学、基因组学和DNA研究领域。数据规模在1K到10K之间。数据集还提供了详细的字段说明,包括序列、NCBI登录号、病毒名称、家族、亚家族、属、宿主等信息,并标注了计算特征和生物学注释。数据集的局限性包括对Alloherpesviridae和Malacoherpesviridae的潜伏位点注释基于有限文献,以及NCBI提交模式导致的样本偏差。
创建时间:
2026-03-31
原始信息汇总

Herpesvirales Labeled Subset 数据集概述

数据集摘要

本数据集是 hiyata/Virus-Host-Genomes 的一个经过筛选和标注的子集,仅包含疱疹病毒目(Herpesvirales)的完整基因组序列。来自异疱疹病毒科(Alloherpesviridae)和软体动物疱疹病毒科(Malacoherpesviridae)的序列直接从NCBI获取并添加,以扩展对该目下所有三个科的覆盖。

筛选遵循原始数据集随附出版物中描述的方法,排除了部分序列、突变株、未经验证的记录、BAC克隆,并应用了50,000 bp的最小基因组长度阈值。添加了源数据集中不存在的四个疱疹病毒特异性标注列:gc_contentcpg_oe_ratiolatency_sitecell_tropism_breadth

最后更新日期: 2026年3月30日

引用信息

如果使用本数据集,请引用:

@article{carbajo2026sequence, author = {Carbajo, Alan L and Vensko, Taylor A and Pellett, Philip E}, title = {Sequence Based Virus Host Prediction: A Curated Dataset and Generalizable Framework for Training Artificial Intelligence to Identify Viruses of Humans}, journal = {Virus Evolution}, year = {2026}, pages = {veag009}, publisher = {Oxford University Press}, doi = {10.1093/ve/veag009}, url = {https://doi.org/10.1093/ve/veag009} }

数据字段

字段 类型 描述
sequence string 完整基因组序列(仅含ACGT)
accession string NCBI登录号
virus_name string NCBI分类学中的完整病毒名称
family string 疱疹病毒科 / 异疱疹病毒科 / 软体动物疱疹病毒科
subfamily string α疱疹病毒亚科 / β疱疹病毒亚科 / γ疱疹病毒亚科
genus string 分类学属
host string 人类 / 非人类
standardized_host string 标准化的宿主学名
host_category string 哺乳动物 / 鸟类 / 鱼类 / 两栖动物 / 软体动物
host_order string 宿主分类学目(例如灵长目、偶蹄目、鲤形目)
isolation_source string GenBank记录中的组织或样本来源
isolation_date string 采集日期
strain_name string 毒株或分离株标识符
location string 分离的地理位置
standardized_location string 国家级的标准化位置
genome_length int32 基因组长度(碱基对)
gc_content float32 G+C含量分数(0.0–1.0)
cpg_oe_ratio float32 观测与预期CpG二核苷酸比率
latency_site string 建立潜伏期的细胞类型或组织
cell_tropism_breadth string 广泛 / 狭窄 / 未知
gemini_annotated bool 是否使用Gemini AI进行标注

新增列

以下列是添加到源数据中的,在 hiyata/Virus-Host-Genomes 中不存在:

字段 描述
genome_length 根据筛选后的序列记录计算得出
gc_content 直接从每个基因组序列计算得出
cpg_oe_ratio 观测到的CpG二核苷酸频率除以预期频率
latency_site 从主要文献中整理;对未表征的毒株应用亚科级别的默认值
cell_tropism_breadth 对裂解性感染期间宿主细胞范围的整理标注

关键计算特征

  • GC含量 范围从30.6%到78.4%。β疱疹病毒亚科(HCMV谱系)趋向于高GC含量(约55–60%),而异疱疹病毒科则明显富含AT。
  • CpG O/E比率 范围从0.229到1.513。低CpG O/E比率表明相对于随机序列存在抑制,这是长期适应脊椎动物宿主的标志,因为在脊椎动物中,未甲基化的CpG二核苷酸会通过TLR9触发先天免疫感应。
  • 潜伏位点 标注来自一个涵盖所有特征明确的疱疹病毒的整理查找表,对特征较少的毒株应用了亚科级别的默认值。

潜伏生物学注释

潜伏位点是本数据集中主要的具有生物学意义的趋向性标注,而非组织趋向性。许多疱疹病毒,特别是像CMV这样的β疱疹病毒和像EBV这样的γ疱疹病毒,在裂解复制期间感染广泛的细胞类型,仅凭裂解趋向性无法进行有意义的表征。潜伏储存库是临床和进化相关的约束条件。

亚科 特征性潜伏位点
α疱疹病毒亚科 感觉神经节神经元(三叉神经、背根神经、骶神经)
β疱疹病毒亚科 单核细胞 / CD34+造血祖细胞
γ疱疹病毒亚科 静息记忆B淋巴细胞(或某些病毒中的T淋巴细胞)
异疱疹病毒科 很大程度上未知;鱼类疱疹病毒中可能是白细胞
软体动物疱疹病毒科 未知;在OsHV-1中怀疑是血细胞

筛选方法

使用随附出版物中描述的相同标准从 hiyata/Virus-Host-Genomes 中筛选序列:排除了部分序列、突变株、未经验证的记录和BAC克隆,并应用了50,000 bp的最小基因组长度阈值以去除片段。仅保留了分类属于疱疹病毒目的记录。

局限性

  • 异疱疹病毒科和软体动物疱疹病毒科的潜伏位点标注基于有限的文献,应视为临时性的。
  • 抽样反映了NCBI的提交模式。经过充分研究的人类疱疹病毒和具有重要经济意义的动物疱疹病毒(锦鲤疱疹病毒、马立克氏病病毒)相对于野生动物疱疹病毒存在过度代表。
  • 对于接收亚科级别默认潜伏标注的记录,应结合适当的不确定性进行解释,特别是对于新型或特征较少的毒株。
搜集汇总
数据集介绍
main_image_url
构建方式
在疱疹病毒基因组学研究领域,数据集的构建往往依赖于对现有资源的深度挖掘与精细化处理。本数据集源自hiyata/Virus-Host-Genomes,通过严格的筛选流程,仅保留了疱疹病毒目(Herpesvirales)中完整的基因组序列。筛选过程遵循原始文献所述方法,剔除了部分序列、突变株、未验证记录及BAC克隆,并设定了五万碱基对的最小基因组长度阈值。此外,为扩展覆盖范围,直接从NCBI补充了Alloherpesviridae和Malacoherpesviridae家族的序列,从而实现了对疱疹病毒目全部三个家族的全面涵盖。
特点
疱疹病毒以其严格的宿主特异性和终身潜伏特性而著称,这些生物学属性为序列层面的分析提供了独特视角。本数据集的核心特征在于其新增的四项疱疹病毒特异性注释列:GC含量、CpG观测期望比、潜伏位点以及细胞嗜性广度。这些特征不仅从序列中直接计算得出,还结合了文献中的潜伏位点注释,揭示了疱疹病毒与宿主共进化过程中的基因组适应性变化。例如,GC含量在30.6%至78.4%之间波动,而CpG观测期望比则反映了病毒对脊椎宿主免疫环境的长期适应策略。
使用方法
在病毒基因组学与生物信息学研究中,本数据集为探索疱疹病毒的宿主预测、潜伏机制及进化动力学提供了结构化资源。用户可通过HuggingFace平台直接加载数据集,利用其丰富的注释字段进行多维度分析,如基于GC含量和CpG比率的基因组特征比较,或结合潜伏位点注释研究病毒与宿主细胞的相互作用。数据集适用于文本分类、特征提取等机器学习任务,尤其适合训练模型以识别人类相关病毒。使用时需注意数据局限性,如部分潜伏位点注释基于有限文献,且采样偏差可能影响代表性。
背景与挑战
背景概述
疱疹病毒目数据集(herpesvirales-virus-dataset)由Carbajo、Vensko和Pellett等研究人员于2026年构建,旨在为病毒宿主预测研究提供高质量的基因组序列资源。该数据集源自hiyata/Virus-Host-Genomes,经过精心筛选,仅保留疱疹病毒目下完整的基因组序列,涵盖了Orthoherpesviridae、Alloherpesviridae和Malacoherpesviridae三个科。其核心研究问题聚焦于利用序列特征解析疱疹病毒严格的宿主特异性和终身潜伏感染机制,通过整合GC含量、CpG O/E比率、潜伏位点及细胞嗜性广度等关键生物学注释,填补了现有资源中序列衍生特征与潜伏表型关联的空白,为病毒进化生物学和人工智能驱动的宿主预测模型奠定了数据基础。
当前挑战
该数据集致力于解决疱疹病毒宿主预测与潜伏机制解析的复杂挑战,其核心问题在于如何从基因组序列中准确推断病毒的宿主范围与潜伏特性,这要求模型能够捕捉高度保守的共进化信号。在构建过程中,研究人员面临多重困难:首先,原始数据中部分序列记录不完整或存在突变株,需通过严格的长度阈值与质量控制流程进行筛选;其次,对于Alloherpesviridae和Malacoherpesviridae等研究较少的科,潜伏位点注释依赖于有限的文献,存在不确定性;此外,数据分布受NCBI提交模式影响,人类及经济动物疱疹病毒样本过度代表,可能导致模型泛化能力受限。
常用场景
经典使用场景
在疱疹病毒基因组学领域,该数据集为研究人员提供了一个结构化的基准平台,用于训练和评估机器学习模型。其经典应用场景集中于利用病毒全基因组序列及其衍生的生物学特征,如GC含量和CpG O/E比值,来预测病毒的宿主特异性或潜伏感染位点。通过整合序列数据与精心标注的生物学属性,该数据集支持开发能够从原始DNA序列中识别复杂进化模式的算法,为理解疱疹病毒的宿主适应机制提供了关键的计算资源。
衍生相关工作
围绕该数据集,已衍生出一系列探索序列到表型映射的经典研究工作。例如,基于其构建的宿主预测框架被扩展应用于更广泛的病毒分类群。其标注的潜伏生物学特征启发了对病毒潜伏期转录调控网络的机器学习研究。此外,数据集提供的GC含量和CpG O/E比值等特征,已成为后续比较基因组学研究中衡量病毒基因组组成偏好的标准指标,相关方法也被借鉴用于其他具有复杂生命周期的DNA病毒研究之中。
数据集最近研究
最新研究方向
在病毒基因组学与人工智能交叉领域,疱疹病毒数据集正推动着前沿研究。该数据集整合了疱疹病毒特有的基因组特征,如GC含量、CpG O/E比率及潜伏感染位点,为探索病毒与宿主共进化机制提供了精细化的序列基础。当前研究热点聚焦于利用这些标注特征训练深度学习模型,以预测病毒的宿主特异性、潜伏感染倾向及跨物种传播风险。此类工作不仅深化了对疱疹病毒生物学特性的理解,也为开发新型抗病毒策略和评估新发传染病潜在威胁提供了关键数据支持,体现了计算生物学在应对复杂病毒学挑战中的日益重要作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作