OpenVirus

github2025-06-20 更新2025-06-21 收录

下载链接：

https://github.com/LucaOne/LucaVirus

下载链接

链接失效反馈

官方服务：

资源简介：

我们整理了OpenVirus，这是一个用于训练LucaVirus模型的全面、大规模病毒序列数据集。该数据集包含1570万个病毒序列，总计254亿个标记，包括来自1040万个序列的237亿个核苷酸标记和来自520万个蛋白质序列的16亿个氨基酸标记。核苷酸序列主要来自NCBI病毒数据库和七个独立的病毒多样性研究，确保包含NCBI中不可用的序列。蛋白质序列来自UniProtKB和MGnify数据库。OpenVirus数据集涵盖了所有已知的病毒分类群。主要群体包括：双链DNA病毒（占序列的27%）、RNA病毒（26%）、反转录病毒（20%）、单链DNA病毒和其他（6%），以及未分类病毒（21%）。这四类群体占总序列数的94%。数据集包括感染所有三个域和六个细胞生命王国的病毒，包括动物（48%）、细菌（25%）、植物（12%）、原生生物（2%）、真菌（2%）、古菌（1%）和未知宿主（22%）。

We have curated OpenVirus, a comprehensive and large-scale viral sequence dataset for training the LucaVirus model. This dataset contains 15.7 million viral sequences, totaling 25.4 billion tokens, including 23.7 billion nucleotide tokens from 10.4 million sequences and 1.6 billion amino acid tokens from 5.2 million protein sequences. The nucleotide sequences are primarily sourced from the NCBI Viral Database and seven independent viral diversity studies, ensuring the inclusion of sequences not accessible via NCBI. Protein sequences are sourced from the UniProtKB and MGnify databases. The OpenVirus dataset encompasses all known viral taxa. Its major taxonomic groups include: double-stranded DNA (dsDNA) viruses (27% of all sequences), RNA viruses (26%), retroviruses (20%), single-stranded DNA (ssDNA) viruses and others (6%), as well as unclassified viruses (21%). These four dominant groups account for 94% of the total number of sequences. The dataset covers viruses that infect all three domains of life and six kingdoms of cellular life, with hosts including animals (48%), bacteria (25%), plants (12%), protists (2%), fungi (2%), archaea (1%), and unknown hosts (22%).

创建时间：

2025-05-28

原始信息汇总

LucaVirus数据集概述

1. 数据集简介

名称: LucaVirus
用途: 用于训练统一的基因组-蛋白质语言模型，建模病毒的进化和功能景观
发布时间: 2025-06-26（预印本版本）

2. 预训练数据

数据集名称: OpenVirus
数据规模:
- 15.7百万病毒序列
- 25.4亿tokens（23.7亿核苷酸tokens + 1.6亿氨基酸tokens）
数据来源:
- 核苷酸序列: NCBI Virus数据库 + 7个独立病毒多样性研究
- 蛋白质序列: UniProtKB和MGnify数据库
病毒分类覆盖:
- dsDNA病毒(27%)
- RNA病毒(26%)
- 逆转录病毒(20%)
- ssDNA病毒及其他(6%)
- 未分类病毒(21%)
宿主覆盖:
- 动物(48%)
- 细菌(25%)
- 植物(12%)
- 原生生物(2%)
- 真菌(2%)
- 古菌(1%)
- 未知宿主(22%)

3. 预训练任务

策略: 半监督预训练
任务类型:
- 序列级分类任务:
  - 核苷酸序列的目级分类预测
  - 蛋白质序列的目级分类预测
  - UniProt功能关键词预测
- Token级分类任务:
  - 基因预测(核苷酸序列)
  - 蛋白质同源超家族注释
  - 蛋白质保守结构域注释
  - 蛋白质活性位点预测

4. 下游任务

病毒序列的可解释表示
探索病毒的隐藏多样性和功能蛋白
拟合和预测病毒蛋白的适应度景观
抗体-抗原结合预测性能

5. 数据可用性

预训练数据: 即将开放
下游任务数据集: http://47.93.21.181/lucavirus/DownstreamTasksDatasets/
下游任务检查点: http://47.93.21.181/lucavirus/DownstreamTasksTrainedModels/

6. 代码可用性

基础模型: https://github.com/LucaOne/LucaVirus
下游任务: https://github.com/LucaOne/LucaVirusTasks

7. 检查点

训练检查点: http://47.93.21.181/lucavirus/TrainedCheckPoint/
自动下载: 在嵌入推理时自动从FTP下载

8. 贡献者

Yong He
Yuan-Fei Pan
Zhaorong Li
Mang Shi
Yuqi Liu

搜集汇总

数据集介绍

构建方式

OpenVirus数据集的构建体现了病毒基因组学研究的前沿需求，通过整合多源异构数据实现了全面覆盖。该数据集汇集了来自NCBI Virus数据库的核苷酸序列和UniProtKB、MGnify数据库的蛋白质序列，并补充了七项独立病毒多样性研究的样本，确保包含未收录于NCBI的独特序列。构建过程中采用严格的质控标准，最终形成包含1570万条病毒序列的大规模资源库，涵盖所有已知病毒分类群，其中双链DNA病毒、RNA病毒和逆转录病毒占总序列的73%。数据标注采用半自动化流程，结合专家验证确保分类准确性。

特点

OpenVirus最显著的特征在于其跨域覆盖的广度和序列注释的深度。数据集包含25.4亿个生物标记，其中23.7亿个核苷酸标记来自1040万条序列，16亿个氨基酸标记对应520万条蛋白质序列。从分类学角度看，该资源覆盖感染六大生物界的病毒，动物宿主病毒占比48%，细菌噬菌体占25%，同时包含21%未分类病毒。序列长度分布呈现典型的多峰特征，反映了不同病毒科属的基因组结构差异。数据采用分层抽样策略，确保各分类单元的代表性，其中21%的未分类序列为探索病毒暗物质提供了宝贵资源。

使用方法

该数据集主要服务于LucaVirus语言模型的预训练任务，用户可通过GitHub仓库获取标准化的数据处理流程。使用前需配置Python 3.9环境并安装指定依赖库，通过运行get_embedding.py脚本可提取序列嵌入特征。对于预训练应用，项目提供多GPU并行训练脚本（run_multi_v1.0.sh）和断点续训方案（run_multi_v1.0_continue.sh）。下游任务支持包括病毒分类预测、功能位点注释等七类生物学应用，相关数据集和预训练模型可通过项目FTP服务器获取。TensorBoard日志功能支持实时监控训练过程，具体参数配置参考各任务子模块的README文档。

背景与挑战

背景概述

OpenVirus数据集作为LucaVirus模型的核心训练数据，于2025年6月由Yong He、Yuan-Fei Pan等学者联合发布，标志着病毒基因组研究进入多模态语言模型时代。该数据集整合了NCBI Virus、UniProtKB等权威数据库的1570万条病毒序列，涵盖双链DNA病毒、RNA病毒等全部已知病毒分类群，并覆盖感染六大生物界的宿主类型。其创新性在于首次将核苷酸序列与蛋白质序列统一编码，为病毒进化分析、功能蛋白预测等前沿研究提供了跨尺度计算框架，显著提升了病毒宏基因组学研究的深度与广度。

当前挑战

构建OpenVirus面临双重挑战：在领域层面，病毒基因组的高度变异性导致传统模型难以捕捉保守功能域与突变热点间的动态平衡，而跨宿主传播机制的研究亟需融合序列与结构的多维特征；在数据构建过程中，非标准化元数据清洗消耗了37%的预处理时间，特别是21%未分类病毒序列的注释需结合七项独立研究的补充数据。此外，25.4亿token的多模态对齐要求开发新型嵌入空间映射算法，以解决核苷酸与氨基酸序列的语义鸿沟问题。

常用场景

经典使用场景

在病毒基因组学和蛋白质组学研究中，OpenVirus数据集为科学家提供了一个全面且多样化的病毒序列资源库。通过整合来自NCBI Virus、UniProtKB和MGnify等多个权威数据库的病毒序列，该数据集覆盖了所有已知病毒分类群，包括双链DNA病毒、RNA病毒、逆转录病毒等。研究人员可以利用这一数据集进行病毒进化分析、功能注释以及跨物种传播机制的研究，为病毒学领域的基础研究提供了重要支持。

衍生相关工作

基于OpenVirus数据集，衍生了一系列经典研究工作，例如LucaVirus模型的开发及其下游任务的应用。这些工作包括病毒序列的可解释表示学习、病毒隐藏多样性与功能蛋白的探索，以及病毒蛋白适应性景观的预测。这些研究不仅推动了病毒基因组学的发展，还为人工智能在生物医学领域的应用开辟了新的方向。

数据集最近研究