Dynamic PDB|蛋白质结构数据集|分子动力学数据集
收藏Dynamic PDB 数据集概述
概述
Dynamic PDB 是一个大规模数据集,通过整合动态数据和额外的物理属性,增强了现有的静态3D蛋白质结构数据库(如Protein Data Bank,PDB)。该数据集包含约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟,以捕捉构象变化。
关键进展
- 扩展的模拟时长:每个蛋白质的模拟时长可达1微秒,有助于更全面地理解显著的构象变化。
- 更细粒度的采样间隔:采样间隔为1皮秒,允许捕捉更详细的全局路径。
- 丰富的物理属性:在MD过程中捕捉到的物理属性,包括原子速度和力、势能/动能、模拟环境的温度等。
数据集内容
数据集包含以下属性:
| 文件名 | 属性 | 数据类型 | 单位 |
|---|---|---|---|
{protein_id}_T.pkl |
轨迹坐标 | float数组 | Å |
{protein_id}_V.pkl |
原子速度 | float数组 | Å/ps |
{protein_id}_F.pkl |
原子力 | float数组 | kcal/mol·Å |
{protein_id}_npt_sim.dat |
势能<br>动能<br>总能量<br>温度<br>盒子体积<br>系统密度 | float<br>float<br>float<br>float<br>float<br>float | kJ/mole<br>kJ/mole<br>kJ/mole<br>K<br>nm³<br>g/mL |
此外,MD模拟过程中还存储了以下数据:
| 文件名 | 描述 |
|---|---|
{protein_id}_minimized.pdb |
最小化后的PDB结构 |
{protein_id}_nvt_equi.dat |
NVT平衡信息 |
{protein_id}_npt_equi.dat |
NPT平衡信息 |
{protein_id}_T.dcd |
轨迹坐标的DCD格式 |
{protein_id}_state_npt1000000.0.xml |
MD延长状态文件 |
数据集下载
可以通过以下命令从ModelScope仓库下载数据集: shell git lfs install git clone https://www.modelscope.cn/datasets/fudan-generative-vision/dynamicPDB.git dynamicPDB
数据集的组织结构如下:
text
./dynamicPDB/
|-- 1ab1_A_npt1000000.0_ts0.001
| |-- 1ab1_A_npt_sim_data
| | |-- 1ab1_A_npt_sim_0.dat
| | -- ... | |-- 1ab1_A_dcd | | |-- 1ab1_A_dcd_0.dcd | | -- ...
| |-- 1ab1_A_T
| | |-- 1ab1_A_T_0.pkl
| | -- ... | |-- 1ab1_A_F | | |-- 1ab1_A_F_0.pkl | | -- ...
| |-- 1ab1_A_V
| | |-- 1ab1_A_V_0.pkl
| | -- ... | |-- 1ab1_A.pdb | |-- 1ab1_A_minimized.pdb | |-- 1ab1_A_nvt_equi.dat | |-- 1ab1_A_npt_equi.dat | |-- 1ab1_A_T.dcd | |-- 1ab1_A_T.pkl | |-- 1ab1_A_F.pkl | |-- 1ab1_A_V.pkl | -- 1ab1_A_state_npt1000000.0.xml
|-- 1uoy_A_npt1000000.0_ts0.001
| |-- ...
| -- ... -- ...
应用
轨迹预测
扩展了SE(3)扩散模型,以结合序列特征和物理属性进行轨迹预测任务。具体任务是给定蛋白质的初始3D结构,预测下一时间步的3D结构。
数据准备
数据准备包括以下步骤:
- 提取蛋白质的PDB文件和节点/边特征。
- 处理蛋白质轨迹数据。
- 提取Cα原子的力和速度。
准备训练和测试蛋白质列表的CSV文件,格式如下:
| name | seqres | release_date | msa_id | atlas_npz | embed_path | seq_len | force_path | vel_path | pdb_path |
|---|---|---|---|---|---|---|---|---|---|
| 16pk_A | EKKSIN... | 1998/11/25 | 16pk_A | ./DATA/16pk_A/16pk_A_new_w_pp.npz | ./DATA/16pk_A/16pk_A.npz | 415 | ./DATA/16pk_A/16pk_F_Ca.pkl | ./DATA/16pk_A/16pk_V_ca.pkl | ./DATA/16pk_A/16pk.pdb |
| ... |
训练与推理
- 训练:使用
run_train.sh脚本进行训练。 - 推理:使用
run_eval.sh脚本进行推理。

日食计算器
此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。
国家天文科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
