ncbi-genbank-complete

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://huggingface.co/datasets/pulmo/ncbi-genbank-complete

下载链接

链接失效反馈

官方服务：

资源简介：

NCBI GenBank Complete 是一个包含所有公开可用DNA序列的注释集合，由美国国立卫生研究院（NIH）维护。该数据集是国际核苷酸序列数据库合作（INSDC）的一部分，与日本的DNA数据库（DDBJ）和欧洲核苷酸档案（ENA）每日交换数据。数据集已处理为适合机器学习训练的parquet格式，包含基因组序列及其对应的访问号。每个数据实例代表一个核苷酸序列，包含accession（NCBI访问标识符）和sequence（原始核苷酸序列字符串）两个字段。数据集适用于训练大规模基因组基础模型、进行广泛的序列分类或研究遗传多样性。需要注意的是，GenBank依赖于科学界的提交，因此研究或测序频繁的物种会显著过多表示。数据集由NCBI维护，数据属于公共领域，可自由使用。

NCBI GenBank Complete is an annotated collection of all publicly available DNA sequences, maintained by the National Institutes of Health (NIH). This dataset is part of the International Nucleotide Sequence Database Collaboration (INSDC) and exchanges data daily with the DNA Data Bank of Japan (DDBJ) and the European Nucleotide Archive (ENA). The dataset has been processed into parquet format suitable for machine learning training, containing genomic sequences and their corresponding accession numbers. Each data instance represents a nucleotide sequence, including two fields: accession (NCBI accession identifier) and sequence (raw nucleotide sequence string). The dataset is suitable for training large-scale genomic foundational models, conducting extensive sequence classification, or studying genetic diversity. It should be noted that GenBank relies on submissions from the scientific community, so species that are frequently researched or sequenced will be significantly overrepresented. The dataset is maintained by NCBI and the data is in the public domain, freely available for use.

创建时间：

2026-05-01

原始信息汇总

数据集卡片：NCBI GenBank Complete

数据集描述

主页： NCBI GenBank
论文： GenBank
联系方式： NCBI
许可协议： apache-2.0
语言： 英语
标签： 生物学、生物信息学、基因组学、DNA、序列
数据集大小： 超过1TB

数据集摘要

GenBank® 是美国国立卫生研究院（NIH）的基因序列数据库，是一个收录所有公开可用DNA序列的带注释集合。GenBank 是国际核苷酸序列数据库联盟（INSDC）的一部分，该联盟由日本DNA数据库（DDBJ）、欧洲核苷酸档案库（ENA）和NCBI的GenBank组成。这三个组织每日交换数据。

本数据集已处理为适合机器学习训练的parquet格式，包含基因组序列及其对应的登录号。需要注意的是，与RefSeq相比，GenBank具有冗余性，包含作者提交的原始序列。

支持的任务与排行榜

本数据集可用于：

训练大规模基因组基础模型
执行广泛的序列分类
研究遗传多样性

语言

数据为基因组序列数据（DNA/RNA），表示为核苷酸字符串（A、C、G、T、N）。

数据集结构

数据实例

每个实例代表一段核苷酸序列：

json { "accession": "U49845.1_part1", "sequence": "GATCGATCGATC..." }

数据字段

accession：序列的NCBI访问标识符（例如 U49845.1）。大序列可能带有 _partXXX 后缀以限制数据块大小。
sequence：原始核苷酸序列字符串。

数据划分

数据集提供单一的 train 划分，包含所有序列。

数据集创建

策划理由

GenBank 旨在为科学界提供并鼓励访问最新、最全面的DNA序列信息。

源数据

初始数据收集与标准化： 序列由全球科学家直接提交给GenBank。
源语言生产者： 数据代表来自各种生物体的遗传物质，由全球科学界提交。

使用数据的注意事项

数据集的社会影响

基因组数据集对医学研究、药物发现和生物学理解具有深远影响。GenBank 的庞大规模使得研究前所未有的生物多样性成为可能。

偏倚讨论

GenBank 完全依赖于科学界的提交。因此，被广泛研究或频繁测序的物种在数据集中被显著过度代表。

附加信息

数据集策展人

该数据库由美国国家生物技术信息中心（NCBI）托管和维护。

许可信息

NCBI GenBank 的数据属于公共领域，可免费使用。

机器学习数据集归属

本数据集（GenBank Release 272）由 huggingworld 检索并优化处理。序列数据已使用最新的 pyarrow 标准序列化为parquet格式，专门面向机器学习研究和大规模模型训练。如果您在研究中使用了本处理版本的数据集，请引用或致谢本仓库。

引用信息

bibtex @misc{huggingworld2026ncbigenbank, author = {huggingworld}, title = {NCBI GenBank Complete (Release 271) April 15 2026 - Processed for ML Research}, year = {2026}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/pulmo/ncbi-genbank-complete}} }

bibtex @article{10.1093/nar/gks1195, author = {Benson, Dennis A. and Cavanaugh, Mark and Clark, Karen and Karsch-Mizrachi, Ilene and Lipman, David J. and Ostell, James and Sayers, Eric W.}, title = "{GenBank}", journal = {Nucleic Acids Research}, volume = {41}, number = {D1}, pages = {D36-D42}, year = {2012}, month = {11}, issn = {0305-1048}, doi = {10.1093/nar/gks1195}, url = {https://doi.org/10.1093/nar/gks1195}, eprint = {https://huggingface.co/datasets/pulmo/ncbi-genbank-complete/resolve/main/gks1195.pdf}, }

搜集汇总

数据集介绍

构建方式

ncbi-genbank-complete数据集源自美国国家生物技术信息中心（NCBI）维护的GenBank数据库，该数据库是全球公共DNA序列的权威注释集合，隶属于国际核苷酸序列数据库联盟（INSDC），每日与日本DNA数据库（DDBJ）及欧洲核苷酸档案库（ENA）同步数据。该数据集针对机器学习训练进行了专门处理，将原始提交的冗余基因序列（包含作者提供的原始数据）转换为高效的parquet格式，每条记录由序列存取号（accession）和对应的核苷酸序列（sequence）组成，对于较长序列通过添加_part后缀进行分块，确保数据块大小适宜。数据集以单一train分片的形式呈现，整体规模超过1TB，覆盖了从细菌到人类等各类生物的遗传物质，反映了全球科学社区提交的完整基因多样性。

特点

该数据集的核心特点在于其无与伦比的规模与冗余性，与经过严格筛选的非冗余RefSeq数据库不同，GenBank完整保留了研究者提交的原始序列，使得数据集中某些被广泛研究的物种（如人类、模式生物）的序列数量显著偏高，这既为大规模基因组基础模型训练提供了海量素材，也引入了物种层面的采样偏差。每个数据实例均包含标准化的核苷酸字符串（A、C、G、T、N），支持DNA/RNA序列的直接解析，并附有唯一存取号便于追溯。数据集采用Apache-2.0许可协议，完全开放给学术界与工业界，特别适用于构建基础基因组模型、执行广泛的序列分类任务，或探索遗传多样性等前沿研究。

使用方法

使用该数据集时，用户可通过Hugging Face Datasets库直接加载parquet格式的序列数据，利用标准的机器学习流水线对核苷酸字符串进行分词、编码与批处理。数据集的单一train分片设计简化了数据划分流程，适合进行无监督预训练或监督式微调，例如训练基于Transformer的基因组语言模型或执行序列分类任务。需要注意的是，由于GenBank的冗余特性，在构建下游模型时应考虑对高频物种序列进行重采样或去重，以避免模型偏向。此外，研究者需合理规划计算资源，因为数据集规模庞大（超过1TB），建议采用分布式数据加载或流式处理策略，以高效利用内存并加速训练迭代。

背景与挑战

背景概述

NCBIGenBank作为全球最权威的核酸序列数据库之一，自1982年由美国国家生物技术信息中心（NCBI）创立以来，始终致力于收录来自全球科研人员提交的公共DNA序列数据。该数据库隶属于国际核酸序列数据库联盟（INSDC），与日本DNA数据库（DDBJ）及欧洲核酸档案库（ENA）每日同步更新。ncbi-genbank-complete数据集基于GenBank Release 272版本构建，经由Hugging Face社区处理为适用于机器学习训练的Parquet格式，旨在为基因组基础模型训练、序列分类及遗传多样性研究提供海量原始数据支撑。该数据集的发布标志着基因组学与人工智能的深度融合迈入新阶段，其规模已突破1TB量级，覆盖从微生物到真核生物的广泛生物多样性，有望推动精准医学、药物发现及进化生物学等领域的突破性进展。

当前挑战

该数据集所应对的核心领域挑战在于：原始GenBank数据存在高度冗余性，序列完全由提交者直接提供，缺乏标准化的质量控制与去冗余机制，导致训练大规模基因组模型时可能引入偏差。此外，由于数据来源极度依赖科研社区，物种采样严重不均，人类及模式生物等研究密集类群被过度代表，而大量稀有及未测序物种信息缺失，限制了模型对生物多样性的泛化能力。在构建过程中，数据规模达到数万亿级别，面临分布式存储与高效读取的工程难题，需将原始FASTA格式序列切分为固定长度片段并转换为Parquet列式存储格式，同时确保序列完整性不被破坏，这对序列分区策略及计算资源调度提出了严苛要求。

常用场景

经典使用场景

ncbi-genbank-complete数据集作为全球最全面、最具权威性的公共DNA序列数据库，其核心用途在于为大规模基因组基础模型提供预训练语料。该数据集囊括了来自全球科学家直接提交的冗余序列数据，覆盖了海量生物物种的遗传信息，特别适用于构建能够捕捉核苷酸长程依赖关系与进化模式的深度学习架构，例如DNABERT、HyenaDNA等基于Transformer或状态空间模型的基因组语言模型。研究人员可借助其丰富的序列多样性，训练出能够理解基因组语义的通用表示模型，进而为下游任务奠定坚实的数据基础。

解决学术问题

该数据集着力解决了基因组学研究中两大核心挑战：一是缺乏足够多样且规模宏大的天然序列数据集，限制了深度神经网络对基因组规律的泛化能力；二是已有的参考基因组（如RefSeq）经过人工校正，难以保留原始变异信息。ncbi-genbank-complete以其冗余性和原始提交特征，使得研究者得以精准捕捉自然界的遗传多样性、单核苷酸多态性乃至罕见变异模式。这不仅推动了基础生物学中进化动力学的定量分析，也极大促进了模型对未知序列功能的预测能力，具有深远的学术价值。

衍生相关工作

基于ncbi-genbank-complete，学界与工业界衍生出多项开创性工作。经典成果包括在全部序列上训练的基因组基础模型如GenSLM与Nucleotide Transformer，它们首次在单序列级别实现了对蛋白质编码潜力、非编码RNA结构及调控元件的联合预测。此外，该数据集催生了大规模序列聚类算法（如MMseqs2的增量版本）以及面向长读长测序数据的纠错方法。更有研究者利用其冗余特性构建了跨物种比较基因组学图谱，系统解析了保守非编码区域的演化约束，深刻重塑了功能基因组学的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集