Virus-Host-Genomes-updates-v2
收藏病毒-宿主-基因组数据集概述
数据集基本信息
- 数据集名称:Virus-Host-Genomes Dataset
- 最新版本:v1.0.1
- 最后更新日期:2026-03-26
- 许可协议:MIT
- 任务类别:文本分类、文本到文本生成
- 标签:生物学、医学、病毒、基因组学、DNA
- 规模类别:10K < n < 100K
数据集摘要
Virus-Host-Genomes 是一个包含病毒基因组序列及其宿主信息的综合性数据集,共包含 58,196 条病毒序列。该数据集旨在支持对宿主特异性、人畜共患病潜力和基于基因组的分类模型的遗传决定因素的研究。
数据集内容与结构
数据规模
- 总序列数:58,196
- 训练集实例数:52,071
- 测试集实例数:6,125
数据实例
一个典型的数据实例包含病毒基因组序列及其分类和宿主信息,例如: python { sequence: CCATTCCGGG..., virus_name: Human betaherpesvirus 5, host: human, zoonotic: False, }
数据字段
| 字段名 | 类型 | 描述 | 示例 |
|---|---|---|---|
| sequence | 字符串 | 病毒的基因组序列 | "CCATTCCGGG..." |
| family | 字符串 | 病毒的分类学(科) | "Orthoherpesviridae" |
| accession | 字符串 | 数据库登录号 | "AY446894.2" |
| host | 字符串 | 主要宿主(人类或非人类) | "human" |
| genus | 字符串 | 病毒的分类学(属) | "Cytomegalovirus" |
| isolation_date | 字符串 | 病毒分离日期 | "1999" |
| strain_name | 字符串 | 毒株或分离株标识符 | "Merlin" |
| location | 字符串 | 分离的地理位置 | "United Kingdom: Cardiff" |
| virus_name | 字符串 | 病毒的通用名称 | "Human betaherpesvirus 5" |
| isolation_source | 字符串 | 分离的源材料 | "urine from a congenitally infected child" |
| lab_culture | 布尔值 | 是否从实验室培养物中分离 | true/false |
| wastewater_sewage | 布尔值 | 是否从废水中分离 | true/false |
| standardized_host | 字符串 | 标准化的宿主分类学 | "Homo sapiens" |
| host_category | 字符串 | 宿主生物类别 | "Mammal" |
| standardized_location | 字符串 | 标准化的地理位置 | "United Kingdom" |
| zoonotic | 布尔值 | 已知可跨物种传播 | true/false |
| processing_method | 字符串 | 序列处理方法 | "NGS" |
| gemini_annotated | 布尔值 | 是否使用 Gemini AI 进行注释 | true/false |
| is_segmented | 布尔值 | 病毒是否具有分段基因组 | true/false |
| segment_label | 字符串 | 基因组片段标签 | "NA" |
支持的任务
- 宿主预测:使用病毒序列预测潜在宿主。
- 人畜共患病潜力评估:识别具有跨物种传播潜力的病毒。
- 分类学分类:基于基因组序列对病毒进行分类。
- 序列分析:提取序列特征(如 k-mer 频率)用于分析或预处理。
数据集创建
数据来源
该数据集编译自多个公共存储库,包括:
- NCBI Virus
- GenBank
数据处理步骤
- 序列标准化(仅使用明确的 IUPAC 核苷酸字符)。
- 宿主信息标准化。
- 地理位置规范化。
- 添加额外注释,包括人畜共患病潜力标签。
- 质量过滤以去除低质量或不完整的序列。
宿主标签生成方法
- 专家手动标记约 10,000 条序列。
- 第一层自动化标记使用直接字符串匹配已知宿主名称。
- 第二层标记使用物种词典的模式识别。
- 对于无法通过上述两层分类的序列,使用 Google Gemini 分析可用元数据并分配宿主标签。
使用注意事项与局限性
- 采样偏差:可能过度代表具有临床重要性的病毒,而代表性不足的环境病毒。
- 时间分布偏差:较新的病毒(尤其是引起爆发的病毒)可能被过度代表。
- 地理偏差:来自研究基础设施较强地区的样本可能被过度代表。
- 宿主偏差:人类病毒以及来自家养/农业动物的病毒可能被过度代表。
- 注释质量:某些元数据字段不完整或可能包含不确定性。
引用信息
如果使用此数据集,请引用:
@article{carbajo2026sequence, author = {Carbajo, Alan L and Vensko, Taylor A and Pellett, Philip E}, title = {Sequence Based Virus Host Prediction: A Curated Dataset and Generalizable Framework for Training Artificial Intelligence to Identify Viruses of Humans}, journal = {Virus Evolution}, year = {2026}, pages = {veag009}, publisher = {Oxford University Press}, doi = {10.1093/ve/veag009}, url = {https://doi.org/10.1093/ve/veag009} }
更新历史
| 日期 | 版本 | 新增序列 | 总序列数 | 人类宿主序列 | 非人类宿主序列 | 备注 |
|---|---|---|---|---|---|---|
| 2026-03-26 | v1.0.1 | +150 | 58,196 | 89 | 61 | |
| 2026-03-02 | v1.0.0 | +0 | — | — | — | 初始数据集发布 |




