ManyPeptidesMD

Name: ManyPeptidesMD
Creator: 牛津大学, 蒙特利尔大学, Mila - 魁北克人工智能研究所, 柏林自由大学, Valence Labs, AITHYRA
Published: 2025-08-26 00:28:18
License: 暂无描述

arXiv2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/transferable-samplers/many-peptides-md

下载链接

链接失效反馈

官方服务：

资源简介：

ManyPeptidesMD数据集是用于蛋白质分子动力学模拟的大型数据集，由牛津大学、蒙特利尔大学、Mila - 魁北克人工智能研究所等研究机构提供。该数据集包含2到8个残基的肽系统分子动力学轨迹，每个肽序列模拟200纳秒，其中仅八肽序列就有10000条。数据集的创建过程基于深度学习技术，旨在克服传统分子动力学模拟在计算效率和通用性方面的局限性。ManyPeptidesMD数据集在蛋白质折叠、蛋白质-配体结合、晶体结构预测等领域具有广泛的应用前景，为药物发现和材料科学等领域的进步提供了重要的数据支持。

The ManyPeptidesMD dataset is a large-scale dataset for protein molecular dynamics (MD) simulations, provided by research institutions including the University of Oxford, Université de Montréal, Mila - Quebec AI Institute, and others. It contains molecular dynamics trajectories of peptide systems with 2 to 8 residues, with each peptide sequence simulated for 200 nanoseconds, and there are as many as 10,000 octapeptide sequences alone. The dataset was developed based on deep learning technologies, aiming to overcome the limitations of traditional molecular dynamics simulations in terms of computational efficiency and generalizability. The ManyPeptidesMD dataset has broad application prospects in fields such as protein folding, protein-ligand binding, and crystal structure prediction, providing critical data support for advancements in drug discovery, materials science and other related domains.

提供机构：

牛津大学, 蒙特利尔大学, Mila - 魁北克人工智能研究所, 柏林自由大学, Valence Labs, AITHYRA

创建时间：

2025-08-26

原始信息汇总

ManyPeptidesMD 数据集概述

数据集简介

ManyPeptidesMD 是一个包含 21,700 个随机采样肽序列的分子动力学（MD）轨迹数据集，旨在支持分子模拟、分子动力学的机器学习研究以及非归一化密度采样。

数据规模与分布

总序列数：21,700
序列长度分布：

序列长度	2	3	4	5	6	7	8
训练集	200	1,000	1,500	2,000	3,000	4,000	10,000
验证集	10	---	10	---	---	---	10
测试集	30	---	30	---	---	---	30

数据组织

完整轨迹数据

存储位置：trajectories/
采样频率：
- 训练集：每 1 ps 保存位置和速度
- 验证集和测试集：每 10 ps 保存位置和速度
轨迹长度：
- 训练集：200 ns
- 验证集和测试集：5 μs

PDB 文件

存储位置：pdb_tarfiles/
格式说明：由于存储限制，以每个子集的 .tar 文件形式提供

其他格式

Webdataset 格式

存储路径：webdatasets/single_frames/
格式说明：每个 .tar 文件包含每个序列的 4 个随机选择的位置帧，来自完整训练轨迹的 10 ps/帧子采样

子采样验证和测试集

存储路径：trajectories_subsampled/
描述：验证/测试轨迹的 500 ps 降采样，生成 10,000 个样本集
附加信息：包含从完整 10 ps 间隔轨迹计算的 TICA 投影数据，用于度量计算

模拟细节

所有模拟均使用 OpenMM 进行，配置如下：

力场：amber14-all.xml, implicit/obc1.xml
非键合方法：CutoffNonPeriodic
非键合截断：2.0 纳米
温度：310 开尔文
积分器：LangevinMiddleIntegrator

使用方式

建议使用配套代码库（https://github.com/transferable-samplers/transferable-samplers）进行操作，其中训练 webdataset 可流式传输和缓存，评估数据自动下载。

许可信息

本数据集采用 MIT 许可证。

引用要求

使用本数据集时请引用相关研究工作《Amortized Sampling with Transferable Normalizing Flows》。

搜集汇总

数据集介绍

构建方式

在计算化学领域，高效采样分子构象始终是核心挑战。ManyPeptidesMD数据集的构建采用了分子动力学模拟技术，通过OpenMM工具和amber-14力场对21,700条肽序列进行系统化采样。每条序列均经过200纳秒的模拟，采样间隔为1皮秒，涵盖了2至8个残基长度的肽链。训练集通过均匀采样20种标准氨基酸构建序列，而测试集则通过平衡氨基酸分布确保评估的全面性。所有模拟均在310K温度下进行，采用Langevin动力学积分器并设置2纳米非键截断距离，以保证构象采样的物理准确性。

特点

该数据集的核心特点体现在其规模化和多样性上。它包含超过10,000个八肽序列的模拟轨迹，总模拟时长达到4.34微秒，为当前肽构象采样领域最大规模的公开数据集。其独特之处在于实现了跨序列长度的系统化覆盖，从二肽到八肽均包含均匀采样的序列，且每个长度均配有独立测试集。数据集严格遵循分子动力学模拟的物理规范，所有构象均经过能量最小化和50皮秒的预平衡阶段，确保采样点位于玻尔兹曼分布的有效区域内。此外，数据集提供了完整的原子坐标、能量值及动力学轨迹，支持构象空间与能量空间的联合分析。

使用方法

该数据集专为训练和评估生成式采样模型设计，尤其适用于归一化流和玻尔兹曼生成器等深度学习架构。使用者可通过加载Hugging Face平台提供的标准化数据格式，直接获取分子动力学轨迹与能量标签。典型工作流包括：利用训练集学习肽构象的潜在分布，通过自归一化重要性采样（SNIS）在测试集上评估模型生成样本的质量。评估时需计算生成样本与真实轨迹在能量分布、二面角空间和TICA投影上的Wasserstein距离。数据集还可支持温度迁移实验，通过调整先验分布的温度参数实现跨温度域的构象采样验证。

背景与挑战

背景概述

ManyPeptidesMD数据集由牛津大学、蒙特利尔大学及Mila研究所等机构于2025年联合发布，致力于解决计算化学中分子构象平衡采样的核心难题。该数据集包含21,700条肽序列的分子动力学轨迹，涵盖2至8个残基的肽系统，每条轨迹模拟时长达200纳秒。其核心研究目标是通过归一化流技术实现跨序列长度、氨基酸组成和温度的零样本迁移采样，显著提升了对蛋白质折叠、药物设计等领域的计算效率，推动了生成式模型在科学计算中的应用。

当前挑战

该数据集需解决肽分子构象高维空间中的多模态分布采样问题，其挑战包括：1) 传统分子动力学方法因样本高度相关且计算成本高昂，难以有效探索构象空间；2) 构建过程中需克服跨序列长度的泛化难题，涉及原子级坐标与化学条件的统一表示；3) 数据采集需保证力场一致性，并处理不同肽长度的标准化与对齐问题。此外，模型需在保持似然计算效率的同时，实现与目标玻尔兹曼分布的高精度匹配。

常用场景

经典使用场景

在计算化学领域，ManyPeptidesMD数据集为多肽构象的平衡采样提供了关键支持。该数据集通过整合21,700条多肽序列的分子动力学轨迹，覆盖了2至8个残基长度的系统，为训练可转移的归一化流模型（如PROSE）奠定了数据基础。其经典应用场景包括零样本生成未知多肽系统的构象样本，并通过自归一化重要性采样（SNIS）技术实现玻尔兹曼分布的精确逼近。

衍生相关工作

该数据集催生了多项开创性研究，包括PROSE架构的提出及其在可转移玻尔兹曼生成器中的实现。相关工作进一步拓展到连续时间序列蒙特卡洛方法（SMC）与自优化策略的结合，例如通过重要性采样重加权实现模型在未知系统上的微调。这些工作不仅验证了归一化流在分子采样中的潜力，也为后续研究如温度自适应采样和更大规模生物分子系统的建模提供了基础。

数据集最近研究