BacCorpus100

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/AllTheBacteria/BacCorpus100

下载链接

链接失效反馈

官方服务：

资源简介：

BacCorpus100是一个用于训练和评估基因组感知语言模型的大规模细菌基因组语料库。该数据集包含经过质量控制的细菌基因组，以基因组级别表示，其中预测的蛋白质编码序列存储为蛋白质翻译，基因间区域存储为DNA序列。基因组通过基因组草图技术在100%同一性下进行去重。数据集规模庞大，涵盖约700万个基因组、200亿个蛋白质编码特征、160亿个基因间区域、超过15万个物种以及1万多个环境。数据来源于多个公共细菌基因组资源，包括MGnify、SPIRE、HRGM、GTDB、mOTUs DB和AllTheBacteria。所有基因组均经过统一的质量控制和注释。数据集适用于多种用途，包括预训练细菌基因组语言模型、研究细菌基因组组织、构建蛋白质、DNA、混合模态或基因组感知模型、提取蛋白质或基因间DNA序列进行表示学习，以及评估利用基因组上下文的模型架构。数据集以每基因组一行的形式存储，包含描述从该基因组提取的特征的对齐列表值字段。主要字段包括基因组ID、contig索引、特征索引、分子类型（AA表示翻译的CDS，DNA表示基因间区域）、起始坐标、终止坐标、链、序列以及来源数据库。

BacCorpus100 is a large-scale bacterial genome corpus for training and evaluating genome-aware language models. The dataset contains quality-controlled bacterial genomes represented at the genome level, with predicted protein-coding sequences stored as protein translations and intergenic regions stored as DNA sequences. Genomes are deduplicated at 100% identity using genome sketching techniques. The dataset is extensive, covering approximately 7 million genomes, 200 billion protein-coding features, 160 billion intergenic regions, over 150,000 species, and more than 10,000 environments. BacCorpus100 is specifically designed for large-scale pre-training and analysis of bacterial genome language models. The data is sourced from multiple public bacterial genome resources, including MGnify, SPIRE, HRGM, GTDB, mOTUs DB, and AllTheBacteria. All genomes undergo uniform quality control and annotation. The dataset is suitable for various applications, including pre-training bacterial genome language models, studying bacterial genome organization, building protein, DNA, mixed-modality, or genome-aware models, extracting protein or intergenic DNA sequences for representation learning, and evaluating model architectures that utilize genomic context. The dataset is stored with one genome per line, containing aligned list-value fields describing features extracted from that genome. Key fields include genome ID, contig index, feature index, molecular type (AA for translated CDS, DNA for intergenic regions), start coordinate, end coordinate, strand, sequence, and source database.

创建时间：

2026-05-03

原始信息汇总

数据集概述：BacCorpus100

BacCorpus100 是一个大规模细菌基因组语料库，专为训练和评估基因组感知的基因组语言模型而设计。数据集包含经过质量控制的细菌基因组，以基因组级别表示，其中预测的蛋白质编码序列以蛋白质翻译形式存储，基因间区域以DNA序列形式存储。基因组使用基因组草绘技术在100%同一性下去重。

关键规模指标

基因组数量： 约700万个
蛋白质编码特征： 超过200亿个
基因间区域： 超过160亿个
物种数量： 超过15万种
环境类型： 超过1万种

数据来源

数据集整合自多个公共细菌基因组资源，包括：

MGnify、SPIRE、HRGM、GTDB、mOTUs DB 和 AllTheBacteria

主要用途

预训练细菌基因组语言模型
研究细菌基因组组织
构建蛋白质、DNA、混合模态或基因组感知模型
提取蛋白质或基因间DNA序列用于表示学习
基准测试使用基因组上下文的模型架构

数据集结构

存储格式： 每个基因组对应一行数据

列字段：

列名	类型	描述
`genome_id`	string	基因组标识符
`contig_id`	list<int64>	每个特征的contig索引
`feature_id`	list<int64>	contig内的特征索引
`molecule`	list<string>	特征类型：AA（翻译的CDS）或DNA（基因间区域）
`start`	list<int64>	特征起始坐标
`end`	list<int64>	特征结束坐标
`strand`	list<int64>	特征链方向（1或-1）
`sequence`	list<string>	蛋白质或DNA序列
`source`	string	来源数据库或资源

对齐说明： 列表型列按位置对齐，索引i在所有列中指向同一个基因组特征

使用方式

由于数据集规模庞大，建议使用流式加载而非本地下载： python from datasets import load_dataset ds = load_dataset("AllTheBacteria/BacCorpus100", split="train", streaming=True) example = next(iter(ds)) print(example.keys())

搜集汇总

数据集介绍

构建方式

BacCorpus100是一个大规模细菌基因组语料库，专为训练和评估基因组感知型基因组语言模型而设计。该数据集整合了来自MGnify、SPIRE、HRGM、GTDB、mOTUs DB及AllTheBacteria等多个公共细菌基因组资源的数据。所有基因组经过统一的质量控制与注释，并以基因组级别呈现，其中预测的蛋白质编码序列以蛋白质翻译形式存储，而基因间区则以DNA序列形式保留。为确保数据完整性，构建过程中采用了基因组草图技术，对基因组进行了100%一致性的去重处理，最终形成了涵盖约700万个基因组、200亿个蛋白质编码特征、160亿个基因间区、超过15万个物种及1万种环境的庞大数据集。

特点

BacCorpus100的核心特点在于其规模宏大且内容高度结构化。数据集以每个基因组为一行进行存储，每一行包含多个对齐的列表型字段，如contig_id、feature_id、molecule（标记为AA或DNA）、start、end、strand及sequence。这种设计确保了同一基因组内不同特征的位置一致性，便于序列提取与上下文分析。此外，数据集覆盖了分离基因组和宏基因组组装基因组中的细菌，其多样性横跨超过15万个物种和1万种环境，为跨生态位的基因组语言模型预训练提供了丰富素材。模态上，该数据集同时支持蛋白质序列和基因间区DNA序列，适用于混合模态或仅单一模态的模型开发。

使用方法

鉴于BacCorpus100的庞大体量，官方推荐采用流式加载方式以避免本地存储压力。用户可通过Hugging Face的datasets库直接以流式方式读取训练集，示例代码如下：`ds = load_dataset('AllTheBacteria/BacCorpus100', split='train', streaming=True)`。加载后的数据集每个样本为一个包含8个字段的字典，用户可通过`example.keys()`查看字段列表。该数据集主要应用于预训练细菌基因组语言模型、研究细菌基因组组织、构建蛋白质或DNA表示学习模型，以及基准测试利用基因组上下文的模型架构。对于需要去重或聚类的蛋白质和DNA序列，官方还提供了BacCorpus-prot-90和BacCorpus-intergenic-dna-90等子集资源。

背景与挑战

背景概述

在微生物基因组学与计算生物学交叉领域，大规模基因组语料库的构建成为驱动基因组语言模型发展的关键基石。BacCorpus100数据集由包括MGnify、SPIRE、HRGM、GTDB、mOTUs DB及AllTheBacteria在内的多个国际公共细菌基因组资源整合而成，由相关领域研究团队于近年创建，旨在为细菌基因组语言模型的预训练与分析提供高质量、规模化的数据支撑。该数据集涵盖约700万个基因组、超过200亿个蛋白质编码特征、160亿个基因间区、15万余个物种及1万种环境来源，其核心研究问题聚焦于如何在基因组层面表征细菌的遗传信息，以支持从蛋白质序列、DNA序列到混合模态的深度学习模型开发。BacCorpus100凭借其空前的规模与精细的注释，为细菌基因组学与人工智能的融合研究开辟了新路径，显著提升了模型在基因组组织分析、蛋白质功能预测及环境微生物学中的应用潜力。

当前挑战

BacCorpus100所解决的领域挑战主要体现在细菌基因组语言模型的预训练与评估过程中，因缺乏统一、大规模且经过质量控制的标准语料而受限。传统数据集在物种覆盖度、环境多样性及序列完整性上存在不足，难以支撑模型捕捉基因组层面的上下文依赖与进化模式。此外，数据集构建过程中面临多重技术壁垒：基因组数据的异质性要求实现跨来源的标准化质量过滤与统一注释；超过700万个基因组的存在冗余，需通过基因组草图技术以100%的相似度进行精确去重，以消除偏差；海量数据的存储与访问效率亦构成挑战，必须支持流式加载以避免内存瓶颈；同时，跨测序技术与装配流程带来的序列错误与注释不一致性，对数据集成与可靠性提出了严峻考验。

常用场景

经典使用场景

在微生物组学与计算基因组学的交叉领域，BacCorpus100作为迄今为止规模最为宏大的细菌基因组语料库，为基因组语言模型的预训练提供了无与伦比的数据基石。其经典使用场景聚焦于利用Transformer或GLM等架构，在包含逾七百万个去冗余基因组、涵盖超过十五万个物种的庞大数据集上进行大规模无监督学习，从而捕捉细菌基因组中蛋白质编码序列与基因间区DNA所蕴含的复杂调控与演化模式。研究者可直接以每基因组为样本单元，利用其多模态序列特征（氨基酸翻译与DNA序列）与位置标注信息，推动兼具基因组上下文感知能力的生物语言模型的问世。

解决学术问题

BacCorpus100的构建精准回应了细菌基因组学中长期悬而未决的数据稀疏性与模型泛化瓶颈。此前，受限于高质量基因组数据的匮乏，基于深度学习的基因组模型往往难以捕获跨物种、跨环境的通用序列规律。该数据集通过整合MGnify、GTDB等权威公共资源并执行严格的质量控制与全基因组去重，系统性地解决了训练数据污染与冗余问题，为探究细菌基因组的组织架构、蛋白质功能预测以及基因间区非编码元件的进化动力学提供了统计上可泛化的训练基础，显著推动了从基因组序列直接推断生物学表型这一核心科学命题的进展。

衍生相关工作

BacCorpus100的问世衍生了一系列极具影响力的下游研究工作。例如，围绕该数据集，研究者开发了基于蛋白质序列的对比学习模型（如BacCorpus-prot-90）以及针对基因间区DNA的聚类资源库（BacCorpus-intergenic-dna-90），这些衍生数据集通过同源性降维简化了特征空间，使得计算资源受限的团队也能开展高效的表示学习。更深远的影响在于，该语料库激发了结合基因邻近性与共表达网络的新型模型架构探索，推动了诸如“基因组感知Transformer”和“多模态联合嵌入”等方法的出现，为从全基因组层面理解细菌适应性演化与基因水平转移奠定了数据与方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集