Dynamic PDB|蛋白质结构数据集|分子动力学数据集
收藏Dynamic PDB 数据集概述
概述
Dynamic PDB 是一个大规模数据集,通过整合动态数据和额外的物理属性,增强了现有的静态3D蛋白质结构数据库(如Protein Data Bank,PDB)。该数据集包含约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟,以捕捉构象变化。
关键进展
- 扩展的模拟时长:每个蛋白质的模拟时长可达1微秒,有助于更全面地理解显著的构象变化。
- 更细粒度的采样间隔:采样间隔为1皮秒,允许捕捉更详细的全局路径。
- 丰富的物理属性:在MD过程中捕捉到的物理属性,包括原子速度和力、势能/动能、模拟环境的温度等。
数据集内容
数据集包含以下属性:
文件名 | 属性 | 数据类型 | 单位 |
---|---|---|---|
{protein_id}_T.pkl |
轨迹坐标 | float数组 | Å |
{protein_id}_V.pkl |
原子速度 | float数组 | Å/ps |
{protein_id}_F.pkl |
原子力 | float数组 | kcal/mol·Å |
{protein_id}_npt_sim.dat |
势能<br>动能<br>总能量<br>温度<br>盒子体积<br>系统密度 | float<br>float<br>float<br>float<br>float<br>float | kJ/mole<br>kJ/mole<br>kJ/mole<br>K<br>nm³<br>g/mL |
此外,MD模拟过程中还存储了以下数据:
文件名 | 描述 |
---|---|
{protein_id}_minimized.pdb |
最小化后的PDB结构 |
{protein_id}_nvt_equi.dat |
NVT平衡信息 |
{protein_id}_npt_equi.dat |
NPT平衡信息 |
{protein_id}_T.dcd |
轨迹坐标的DCD格式 |
{protein_id}_state_npt1000000.0.xml |
MD延长状态文件 |
数据集下载
可以通过以下命令从ModelScope仓库下载数据集: shell git lfs install git clone https://www.modelscope.cn/datasets/fudan-generative-vision/dynamicPDB.git dynamicPDB
数据集的组织结构如下:
text
./dynamicPDB/
|-- 1ab1_A_npt1000000.0_ts0.001
| |-- 1ab1_A_npt_sim_data
| | |-- 1ab1_A_npt_sim_0.dat
| | -- ... | |-- 1ab1_A_dcd | | |-- 1ab1_A_dcd_0.dcd | |
-- ...
| |-- 1ab1_A_T
| | |-- 1ab1_A_T_0.pkl
| | -- ... | |-- 1ab1_A_F | | |-- 1ab1_A_F_0.pkl | |
-- ...
| |-- 1ab1_A_V
| | |-- 1ab1_A_V_0.pkl
| | -- ... | |-- 1ab1_A.pdb | |-- 1ab1_A_minimized.pdb | |-- 1ab1_A_nvt_equi.dat | |-- 1ab1_A_npt_equi.dat | |-- 1ab1_A_T.dcd | |-- 1ab1_A_T.pkl | |-- 1ab1_A_F.pkl | |-- 1ab1_A_V.pkl |
-- 1ab1_A_state_npt1000000.0.xml
|-- 1uoy_A_npt1000000.0_ts0.001
| |-- ...
| -- ...
-- ...
应用
轨迹预测
扩展了SE(3)扩散模型,以结合序列特征和物理属性进行轨迹预测任务。具体任务是给定蛋白质的初始3D结构,预测下一时间步的3D结构。
数据准备
数据准备包括以下步骤:
- 提取蛋白质的PDB文件和节点/边特征。
- 处理蛋白质轨迹数据。
- 提取Cα原子的力和速度。
准备训练和测试蛋白质列表的CSV文件,格式如下:
name | seqres | release_date | msa_id | atlas_npz | embed_path | seq_len | force_path | vel_path | pdb_path |
---|---|---|---|---|---|---|---|---|---|
16pk_A | EKKSIN... | 1998/11/25 | 16pk_A | ./DATA/16pk_A/16pk_A_new_w_pp.npz | ./DATA/16pk_A/16pk_A.npz | 415 | ./DATA/16pk_A/16pk_F_Ca.pkl | ./DATA/16pk_A/16pk_V_ca.pkl | ./DATA/16pk_A/16pk.pdb |
... |
训练与推理
- 训练:使用
run_train.sh
脚本进行训练。 - 推理:使用
run_eval.sh
脚本进行推理。

历史航班准点率
航班在最近30天里准点程度的参数综合,反映了该航班可能延误的概率指数。具体计算方法:在最近30天内,航班降落时间比计划降落时间(航班时刻表上的时间)延迟半小时以上或航班取消的情况称为延误,将出现延误情况的航班数量除以30天内实际执飞的航班数量得出延误率,准点率=1-延误率。每日全面更新一次。
苏州大数据交易所 收录
Kwaai/food101
该数据集名为Food-101,主要用于图像分类任务。数据集包含101种食物类别,共计101,000张图像。每个类别包含250张经过人工审核的测试图像和750张训练图像。训练图像未经过清洗,可能包含一些噪声,如颜色过于鲜艳或标签错误。所有图像的最大边长被调整为512像素。数据集分为训练集和验证集,训练集包含75,750张图像,验证集包含25,250张图像。数据集的字段包括图像和标签,图像为PIL.Image.Image对象,标签为整数分类标签。
hugging_face 收录
2022_张家界市标准地图行政区划示意版32开
基于湖南省基础地理信息数据库,依据湖南省行政区划界线标准画法和最新境界、标准地名成果,采用其他自然地理要素和人文专题要素的现势性资料编制而成。
湖南大数据交易所 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
中国沙漠边界数据集(2000-2020年)
本数据集基于Landsat遥感影像,通过辐射定标和大气校正等预处理算法得到沙漠区域影像,通过人工目视解译及波段指数的方法提提取沙漠边界区域。数据集涉及的沙漠主要包括中国八大沙漠。分别为腾格里沙漠,塔克拉马干沙漠,巴丹吉林沙漠,库布奇沙漠,乌兰布和沙漠,库木塔格沙漠,古尔班通古特沙漠,...
国家冰川冻土沙漠科学数据中心 收录