PRESTO-protein-force
收藏Hugging Face2025-11-28 更新2025-11-29 收录
下载链接:
https://huggingface.co/datasets/lamm-mit/PRESTO-protein-force
下载链接
链接失效反馈官方服务:
资源简介:
PRESTO数据集是一个用于蛋白质机械强度预测的深度学习模型训练数据集。它包含了蛋白质序列相关的多个特征,如PDB ID、实体ID、链、长度等,并分为训练集和测试集。该数据集旨在帮助研究者快速准确预测蛋白质的机械强度,从而在蛋白质材料研究中发挥重要作用。
提供机构:
LAMM: MIT Laboratory for Atomistic and Molecular Mechanics
创建时间:
2025-11-23
原始信息汇总
PRESTO蛋白质力数据集概述
数据集基本信息
- 数据集名称: PRESTO-protein-force
- 创建者: lamm-mit
- 用途: 蛋白质机械强度预测
数据特征
| 特征名称 | 数据类型 | 描述 |
|---|---|---|
| PDB_ID | string | 蛋白质数据库标识符 |
| Entity_ID | string | 实体标识符 |
| Chain | string | 蛋白质链标识 |
| Length | int16 | 蛋白质序列长度 |
| Fmax_eps-over-A | float32 | 单位面积最大拉力 |
| Fmax_pN | float32 | 最大拉力(皮牛顿) |
| Dmax_A | float32 | 最大位移(埃) |
| Lmax_A | float32 | 最大长度(埃) |
| Lambda | float32 | 拉格朗日乘子 |
| Sequence | string | 蛋白质序列 |
数据划分
| 划分 | 样本数量 | 数据大小 |
|---|---|---|
| train | 16,652 | 3,212,304字节 |
| test | 124 | 21,731字节 |
| 总计 | 16,776 | 3,234,035字节 |
下载信息
- 下载大小: 2,217,065字节
- 数据集总大小: 3,234,035字节
配置文件
- 配置名称: default
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*
研究背景
蛋白质常形成具有优异机械性能的生物材料。传统方法如原子力显微镜实验或分子动力学计算评估蛋白质机械强度成本高且耗时。PRESTO通过端到端深度学习模型直接从蛋白质序列预测其抗拉伸能力。
方法特点
- 集成自然语言处理模型与基于模拟的蛋白质拉伸数据
- 可准确预测给定蛋白质序列的最大拉力
- 能够识别显著影响蛋白质强度的特定突变位置
- 可用于设计新型蛋白质序列
应用示例
- 蛋白质强度预测
- 突变影响分析
- 新型蛋白质序列设计
- 蛋白质材料研究中的大规模筛选工具
引用文献
bibtex @article{liu2022presto, title = {{PRESTO}: Rapid protein mechanical strength prediction with an end-to-end deep learning model}, author = {Liu, Frank Y. C. and Ni, Bo and Buehler, Markus J.}, journal = {Extreme Mechanics Letters}, volume = {55}, pages = {101803}, year = {2022}, publisher = {Elsevier}, doi = {10.1016/j.eml.2022.101803}, }
搜集汇总
数据集介绍

构建方式
在蛋白质力学特性研究领域,PRESTO数据集的构建融合了自然语言处理技术与分子动力学模拟数据。该数据集通过深度学习模型直接解析蛋白质序列,预测其最大拉伸力值,规避了传统原子力显微镜实验和分子动力学模拟的高成本限制。数据采集基于16652个训练样本和124个测试样本的结构化存储,每个样本包含PDB编号、序列长度及力学参数等关键特征,为大规模蛋白质力学性能分析奠定了坚实基础。
使用方法
基于该数据集的应用需遵循端到端的深度学习框架。使用者可通过加载标准化数据集,采用字符级分词器处理氨基酸序列,构建包含嵌入层、卷积神经网络和双向长短期记忆网络的混合模型。训练过程中需注意数据标准化处理与超参数调优,通过验证集监控模型预测性能。最终模型可实现从原始序列到力学参数的直接映射,为蛋白质理性设计和力学特性快速筛查提供计算工具。
背景与挑战
背景概述
蛋白质生物材料因其卓越的机械性能成为材料科学领域的研究热点,传统方法如原子力显微镜实验和分子动力学模拟存在成本高昂与效率低下的局限。PRESTO-protein-force数据集由麻省理工学院研究团队于2022年创建,通过整合自然语言处理模型与蛋白质拉伸模拟数据,实现了从氨基酸序列直接预测最大拉伸力的突破。该数据集包含16,652条训练样本和124条测试样本,涵盖PDB结构标识、序列特征及力学参数等关键字段,为蛋白质力学性能的高通量筛选提供了重要基础。
当前挑战
在蛋白质力学强度预测领域,传统方法面临计算复杂度与实验周期长的双重挑战。PRESTO数据集构建过程中需克服多尺度数据融合的困难:既要保证分子动力学模拟数据的物理准确性,又需处理氨基酸序列的离散符号表征。深度学习模型需解决序列长度可变性与力学参数连续映射的耦合问题,同时应对蛋白质突变效应非线性响应的建模挑战。数据集的泛化能力还受到训练样本分布与真实蛋白质结构多样性的匹配程度制约。
常用场景
经典使用场景
在蛋白质生物力学研究领域,PRESTO数据集通过整合深度学习与分子动力学模拟数据,构建了从氨基酸序列直接预测蛋白质最大拉伸力的高效模型。该数据集典型应用于评估蛋白质在原子力显微镜下的机械强度特性,为研究多肽链在受力条件下的构象变化提供了标准化基准。其序列-力学特性映射机制显著简化了传统依赖实验或复杂计算的流程,成为探索蛋白质材料力学行为的核心工具。
解决学术问题
该数据集有效解决了蛋白质力学特性研究中实验成本高昂与计算资源密集的学术难题。通过端到端深度学习框架,实现了对蛋白质抵抗拉伸能力的快速量化,突破了传统分子动力学模拟在时间尺度与样本规模上的限制。其创新性在于建立了序列特征与力学响应的直接关联,为研究蛋白质折叠稳定性、突变效应及力学适应性等基础科学问题提供了新范式。
实际应用
在生物材料设计与工程领域,该数据集支撑了高通量蛋白质筛选平台的构建。通过预测突变对力学性能的影响,指导了具有特定机械性能的人工蛋白质设计,例如优化结构蛋白的韧性或弹性。在生物医学应用中,该技术可用于开发新型生物粘合剂或组织工程支架,其快速评估能力显著加速了功能性蛋白质材料的研发周期。
数据集最近研究
最新研究方向
在蛋白质生物力学研究领域,PRESTO数据集正推动深度学习模型在预测蛋白质机械强度方面的前沿探索。该数据集通过整合自然语言处理技术与分子动力学模拟数据,实现了从氨基酸序列直接预测最大拉伸力的突破,有效规避了传统原子力显微镜或计算模拟的高成本限制。当前研究聚焦于利用该数据集开发端到端神经网络架构,探索蛋白质突变对力学性能的调控机制,特别是在多聚丙氨酸区域中心等关键位点的识别方面取得显著进展。值得注意的是,基于该数据集的混合蛋白质序列设计研究揭示了非线性“香蕉曲线”力学响应规律,突破了传统混合法则的线性框架,为大规模新型蛋白质材料的智能筛选与优化设计开辟了新途径。
以上内容由遇见数据集搜集并总结生成



