ChrisHayduk/nanofold-public

Name: ChrisHayduk/nanofold-public
Creator: ChrisHayduk
Published: 2026-05-01 04:11:19
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ChrisHayduk/nanofold-public

下载链接

链接失效反馈

官方服务：

资源简介：

NanoFold Public是nanoFold蛋白质折叠基准的公共训练/验证部分。它打包了一个紧凑、固定、可审计的OpenProteinSet/OpenFold衍生的蛋白质结构训练数据子集，用于在数据高效的折叠模型上进行快速迭代。数据集包含10,000条训练链和1,000条公共验证链，每条链代表一个蛋白质链。原始处理的.npz张量被展开为Hugging Face Dataset列，以便用户可以直接使用typed arrays/lists加载数据。该数据集旨在用于训练和评估较小的蛋白质折叠模型，测试数据高效的架构和目标，以及在没有全规模数据需求的情况下原型化AlphaFold风格的几何学习。它不打算取代全规模的OpenProteinSet/OpenFold训练数据，而是一个故意受限的基准切片。

NanoFold Public is the public train/validation portion of the nanoFold protein-folding benchmark. It packages a compact, fixed, auditable subset of OpenProteinSet/OpenFold-derived protein structure training data for fast iteration on data-efficient folding models. The dataset has 10,000 train chains and 1,000 public validation chains. Each row is one protein chain. The original processed .npz tensors are unrolled into Hugging Face Dataset columns so users can load the data with datasets.load_dataset and work directly with typed arrays/lists. This dataset is intended for training and evaluating smaller protein-folding models, testing data-efficient architectures and objectives, and prototyping AlphaFold-style geometry learning without full-scale data requirements. It is not intended to replace full-scale OpenProteinSet/OpenFold training data. It is a deliberately constrained benchmark slice.

提供机构：

ChrisHayduk

搜集汇总

数据集介绍

构建方式

NanoFold Public 数据集源自 OpenProteinSet 与 OpenFold 生态体系，并整合 RCSB mmCIF 坐标文件。其构建过程首先从候选池中筛选出符合严格标准的单链单体蛋白样本，包括链长介于40至256个残基、分辨率不低于3.0埃、具备所需 MSA 数据等。随后，通过泄露控制与结构分层策略进行划分，确保 PDB 条目与粗粒度序列聚类在不同子集间不重叠。训练集与验证集的分配兼顾二级结构类别、域架构类别、长度区间与分辨率区间等多元结构属性，旨在创建一个固定、可控且具代表性的蛋白质折叠空间子集。

使用方法

用户可通过 Hugging Face Datasets 库直接加载数据集，使用 `load_dataset` 函数获取训练集与验证集。数据列包括链标识符、长度、MSA深度、氨基酸类型、MSA序列、坐标信息等，以动态嵌套列表形式存储。对于 PyTorch 用户，可调用 `with_format(\"torch\")` 方法将列转换为张量格式，便于直接接入深度学习框架。该数据集适用于小规模蛋白质折叠模型训练、数据效率架构测试以及几何学习原型开发，但不适用于全量数据进行预训练或涉及外部结构与检索输入的场景。

背景与挑战

背景概述

蛋白质结构预测是计算生物学领域的核心挑战，深度学习方法如AlphaFold的崛起开辟了新局面，但大规模数据与计算资源的依赖限制了研究的可复现性与快速迭代。为应对这一困境，NanoFold Public数据集于近年由OpenFold与OpenProteinSet团队联合构建，旨在提供一个紧凑、固定且可审计的蛋白质折叠基准测试集。该数据集从OpenProteinSet中精心筛选了10000条训练链与1000条验证链，涵盖长度40至256个残基、分辨率优于3.0埃的单链单体样本，并经过结构分层与泄漏控制分割。其核心研究问题聚焦于数据稀缺与计算约束下的小规模蛋白质折叠模型开发，通过简化数据管线加速架构消融、目标函数设计与课程学习实验，对推动蛋白质结构预测领域的高效研究与开放科学实践产生了重要影响。

当前挑战

NanoFold Public致力于解决的核心领域挑战在于，主流蛋白质折叠方法依赖海量多序列比对与模板数据，模型评估成本高昂，难以适用于资源受限场景。为此，数据集通过采样策略浓缩蛋白折叠空间，但构建过程中面临多重挑战：需从PDB与OpenProteinSet中过滤出清洁且可学习的子集，平衡序列长度、分辨率与结构类别分布，同时确保训练与验证集间无PDB条目与序列簇泄漏。此外，坐标投影需适配NanoFold的atom14标签架构，预处理流程需一致地将原始NPZ张量展平为Hugging Face Dataset列格式，以支持轻量级加载。最终，模板列被留空以维持模式兼容性，但这一设计也迫使模型在不依赖外部模板信息的情况下学习有效的几何特征，进一步考验其泛化能力。

常用场景

经典使用场景

在蛋白质结构预测领域，NanoFold Public数据集为研究者提供了一个精心设计的基准测试平台，特别适用于探索数据高效型折叠模型的快速迭代。该数据集包含10,000条训练链和1,000条验证链，每条链均以展开的张量格式存储，支持直接通过Hugging Face的datasets库加载。其经典用法聚焦于研究蛋白质折叠中的数据稀缺性问题，允许科研人员在计算资源有限的条件下，通过更小的模型和精简的数据管道进行消融实验、目标函数优化以及课程学习等探索性研究。

解决学术问题

该数据集的核心学术价值在于解决了蛋白质结构预测研究中一个长期存在的瓶颈——大规模数据管道带来的实验迭代困难。传统上，验证新型折叠模型往往需要依赖像OpenProteinSet这样的超大规模数据集，导致每次实验都面临繁重的计算负担和漫长的训练周期。NanoFold Public通过精心采样和结构分层，构建了一个兼具代表性和可控性的小型基准，使得研究者能够在有限资源下高效测试模型对蛋白质几何结构的理解能力，有力推动了数据高效型架构和训练目标的学术进展。

实际应用

在实际应用中，NanoFold Public为药物设计、酶工程和合成生物学等领域提供了快速验证蛋白质结构预测思路的便捷工具。例如，在针对特定靶点蛋白进行结构建模时，研究人员可以快速评估不同的序列表示方法或改进后处理策略，无需等待数日的完整训练。此外，该数据集还适用于教学场景，使学生能够在课堂上亲手搭建简化的AlphaFold风格模型，直观理解多序列比对与坐标投影等核心生物信息学技术。

数据集最近研究