Tiny OG2 Dataset

github2026-04-20 更新2026-05-13 收录

下载链接：

https://github.com/andrewdalpino/TinyOG2

下载链接

链接失效反馈

官方服务：

资源简介：

这是OpenGenome2数据集的一个经过策划的子集，包含超过100万个DNA样本，涵盖16个类别，拥有超过1850亿个碱基对（BP）标记，覆盖了广泛的生物生命谱系。它旨在复制用于训练Evo2模型的样本分布，但训练示例数量显著减少，适用于知识蒸馏、快速迭代和学术用途。该数据集分为pretrain和midtrain子集，分别适用于短上下文和长上下文训练。

This is a curated subset of the OpenGenome2 dataset, containing over 1 million DNA samples across 16 categories and more than 185 billion base pair (BP) markers, covering a broad spectrum of biological life lineages. It aims to replicate the sample distribution used for training the Evo2 model, albeit with a significantly reduced number of training examples, making it suitable for knowledge distillation, rapid iteration, and academic research. This dataset is divided into pretrain and midtrain subsets, which are respectively tailored for short-context and long-context training.

创建时间：

2026-04-15

原始信息汇总

数据集概述：Tiny OG2

Tiny OG2 是 OpenGenome2 数据集的一个精心挑选的子集，专为知识蒸馏、快速迭代和学术研究设计。

核心特征

样本规模：包含超过 100 万个 DNA 样本。
数据量：总计超过 1850 亿碱基对（BP）令牌，约 185B BP tokens。
类别覆盖：涵盖 16 个类别，代表广泛的生物生命领域。
设计目的：旨在复现用于训练 Evo2 模型的样本分布，但训练样本量显著减少。

数据集划分

数据集分为两个子集，适用于不同的训练场景：

Pretrain (预训练子集)
- 包含约 1060 亿（106B）BP tokens。
- 适用于短上下文训练。
- 包含以下 9 个类别：

类别	令牌数	样本权重	备注
eukaryotic_genic_windows	90B	35%	5K BP 拼接的令牌窗口。
gtdb_v220_imgpr	3.5B	18%	基因组分类数据库 (GTDB) + IMG/PR 数据。
imgvr_untagged	468M	3%	IMG/VR 病毒序列。
metagenomes	11B	24%	MGD 数据库宏基因组。
mrna	196M	9%	真核生物 mRNA (来自 Ensembl, NCBI)。
mrna_splice_promoter	312M	9%	拼接序列。
ncrna	17M	2%	非编码 RNA (来自 RNAcentral, Rfam, Ensembl, NCBI)。
organelle	422M	0.5%	多种细胞器基因组。
promoters	119K	0.02%	真核生物启动子数据库 (EPDnew)。

Midtrain (中训练子集)
- 包含约 800 亿（80B）BP tokens。
- 适用于长上下文训练。
- 包含以下 7 个类别：

类别	令牌数	样本权重	备注
gtdb_v220_stitched	2B	13%	GTDB 中标记为“长”的序列。
imgpr_long	18M	13%	IMG/PR 中标记为“长”的样本。
ncbi_genomes_animalia	43B	40%	动物界完整基因组。
ncbi_genomes_chromista	630M	0.9%	色素界完整基因组。
ncbi_genomes_fungi	3.6B	4%	真菌界完整基因组。
ncbi_genomes_plantae	29B	27%	植物界完整基因组。
ncbi_genomes_protista	567M	0.9%	原生生物界完整基因组。

代码仓库

用于加载和处理该数据集的代码位于：https://github.com/andrewdalpino/TinyOG2

搜集汇总

数据集介绍

构建方式

Tiny OG2数据集是基于OpenGenome2精心筛选的子集，其构建旨在复现用于训练Evo2模型的样本分布，同时大幅缩减样本数量。数据集涵盖超过100万个DNA样本，包含约1850亿个碱基对（BP）令牌，横跨16个类别，代表广泛的生物生命谱系。整体划分为‘pretrain’和‘midtrain’两个子集，前者包含约1060亿BP令牌，专注于短上下文训练，涵盖真核基因窗口、基因组分类数据库（GTDB）、病毒序列、宏基因组等九大类别；后者包含约800亿BP令牌，专为长上下文训练设计，涵盖完整基因组及拼接序列等七大类别。每个类别均设定了不同的采样权重，以保持与原始数据分布的一致性。

使用方法

使用Tiny OG2数据集需借助HuggingFace Datasets库。首先通过pip安装‘datasets’包，随后调用load_dataset()函数加载指定子集，例如load_dataset('andrewdalpino/Tiny-OpenGenome2', 'pretrain')获取预训练数据，或使用‘midtrain’参数获取中训练数据。加载后，数据集支持基于序列长度或类别的过滤操作，如filter(lambda sample: len(sample['sequence']) <= 8192)筛选短序列，或按自定义类别集筛选感兴趣的分组。该简洁流程确保了研究人员能快速集成数据，投入模型训练与评估工作。

背景与挑战

背景概述

Tiny OG2数据集诞生于2025年，由Andrew Dalpino及其团队创建，旨在为基因组学与深度学习交叉领域提供高效的基准资源。该数据集源自庞大的OpenGenome2数据库，精心筛选了超过100万份DNA样本，涵盖1850亿碱基对，横跨16个类别，全面映射了从原核生物到真核生物的遗传多样性。其设计初衷是复现Evo2模型训练时的数据分布，但以更紧凑的体量支撑知识蒸馏与快速迭代研究。作为衔接海量基因组数据与轻量级模型开发的桥梁，Tiny OG2在高性能计算资源有限的学术环境中展现了独特价值，推动基因序列分析从大规模预训练向更普适的研究范式转型。

当前挑战

该数据集面临的挑战首先在于基因组数据本身的复杂性——从超长上下文（如植物全基因组）到短片段（如非编码RNA）的跨度极大，需平衡不同类别在预训练与中训练子集中的采样权重以维持代表性。构建过程中，原始OpenGenome2数据需经严格过滤与拼接，例如将真核生物基因窗口拼接为5K碱基的令牌窗口，并剔除冗余或低质量序列，这要求对多源数据库（如GTDB、NCBI、Ensembl）进行统一标准化处理。此外，如何在小规模样本中保持Evo2原始训练分布的统计特性，避免过拟合或信息丢失，是知识蒸馏应用的核心技术难题。

常用场景

经典使用场景

Tiny OG2 Dataset作为OpenGenome2的精炼子集，在基因组语言模型领域占据举足轻重的地位。其最经典的使用场景聚焦于知识蒸馏与模型压缩——研究者利用该数据集复现Evo2等大规模基因组基础模型的训练分布，以极低的计算成本实现模型能力的迁移。涵盖真核生物基因窗口、古菌基因组、病毒序列及元基因组等16类生物样本的预训练与中训练子集，为短序列模式识别与长上下文基因组建模提供了标准化基准，尤其适用于学术机构在有限算力下对基因组大语言模型进行快速迭代与验证。

解决学术问题

该数据集系统性地解决了基因组学中大规模序列数据与计算资源鸿沟的核心矛盾。传统全量OpenGenome2数据集包含1850亿碱基对，其庞大体量使得大多数研究团队难以负担训练与推理成本。Tiny OG2通过巧妙保留原始分布特征但大幅缩减样本量，使知识蒸馏、模型剪枝及多任务迁移学习成为可能。它消除了学术界与工业界在基因组基础模型研究中的资源壁垒，推动了从序列结构解析到基因调控元件预测等方向的可重复性研究，为理解生命密码的深层规律提供了关键数据支撑。

实际应用

在实际应用中，Tiny OG2 Dataset已成为基因组AI模型研发的加速引擎。生物科技公司可利用该数据集快速训练轻量级预测模型，用于元基因组中新型CRISPR-Cas系统的挖掘、病毒与宿主互作机制的解析及真核生物基因结构注释的优化。在合成生物学领域，它辅助设计具有特定功能的基因回路与代谢通路；在临床诊断方面，基于该数据集训练的模型可高效识别病原体耐药基因突变。其模块化的类别划分使得农业育种中的抗逆基因筛查、环境微生物群落的快速分类与功能预测等场景得以高效落地。

数据集最近研究