Dynamic PDB|蛋白质结构数据集|分子动力学数据集
收藏Dynamic PDB 数据集概述
概述
Dynamic PDB 是一个大规模数据集,通过整合动态数据和额外的物理属性,增强了现有的静态3D蛋白质结构数据库(如Protein Data Bank,PDB)。该数据集包含约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟,以捕捉构象变化。
关键进展
- 扩展的模拟时长:每个蛋白质的模拟时长可达1微秒,有助于更全面地理解显著的构象变化。
- 更细粒度的采样间隔:采样间隔为1皮秒,允许捕捉更详细的全局路径。
- 丰富的物理属性:在MD过程中捕捉到的物理属性,包括原子速度和力、势能/动能、模拟环境的温度等。
数据集内容
数据集包含以下属性:
文件名 | 属性 | 数据类型 | 单位 |
---|---|---|---|
{protein_id}_T.pkl |
轨迹坐标 | float数组 | Å |
{protein_id}_V.pkl |
原子速度 | float数组 | Å/ps |
{protein_id}_F.pkl |
原子力 | float数组 | kcal/mol·Å |
{protein_id}_npt_sim.dat |
势能<br>动能<br>总能量<br>温度<br>盒子体积<br>系统密度 | float<br>float<br>float<br>float<br>float<br>float | kJ/mole<br>kJ/mole<br>kJ/mole<br>K<br>nm³<br>g/mL |
此外,MD模拟过程中还存储了以下数据:
文件名 | 描述 |
---|---|
{protein_id}_minimized.pdb |
最小化后的PDB结构 |
{protein_id}_nvt_equi.dat |
NVT平衡信息 |
{protein_id}_npt_equi.dat |
NPT平衡信息 |
{protein_id}_T.dcd |
轨迹坐标的DCD格式 |
{protein_id}_state_npt1000000.0.xml |
MD延长状态文件 |
数据集下载
可以通过以下命令从ModelScope仓库下载数据集: shell git lfs install git clone https://www.modelscope.cn/datasets/fudan-generative-vision/dynamicPDB.git dynamicPDB
数据集的组织结构如下:
text
./dynamicPDB/
|-- 1ab1_A_npt1000000.0_ts0.001
| |-- 1ab1_A_npt_sim_data
| | |-- 1ab1_A_npt_sim_0.dat
| | -- ... | |-- 1ab1_A_dcd | | |-- 1ab1_A_dcd_0.dcd | |
-- ...
| |-- 1ab1_A_T
| | |-- 1ab1_A_T_0.pkl
| | -- ... | |-- 1ab1_A_F | | |-- 1ab1_A_F_0.pkl | |
-- ...
| |-- 1ab1_A_V
| | |-- 1ab1_A_V_0.pkl
| | -- ... | |-- 1ab1_A.pdb | |-- 1ab1_A_minimized.pdb | |-- 1ab1_A_nvt_equi.dat | |-- 1ab1_A_npt_equi.dat | |-- 1ab1_A_T.dcd | |-- 1ab1_A_T.pkl | |-- 1ab1_A_F.pkl | |-- 1ab1_A_V.pkl |
-- 1ab1_A_state_npt1000000.0.xml
|-- 1uoy_A_npt1000000.0_ts0.001
| |-- ...
| -- ...
-- ...
应用
轨迹预测
扩展了SE(3)扩散模型,以结合序列特征和物理属性进行轨迹预测任务。具体任务是给定蛋白质的初始3D结构,预测下一时间步的3D结构。
数据准备
数据准备包括以下步骤:
- 提取蛋白质的PDB文件和节点/边特征。
- 处理蛋白质轨迹数据。
- 提取Cα原子的力和速度。
准备训练和测试蛋白质列表的CSV文件,格式如下:
name | seqres | release_date | msa_id | atlas_npz | embed_path | seq_len | force_path | vel_path | pdb_path |
---|---|---|---|---|---|---|---|---|---|
16pk_A | EKKSIN... | 1998/11/25 | 16pk_A | ./DATA/16pk_A/16pk_A_new_w_pp.npz | ./DATA/16pk_A/16pk_A.npz | 415 | ./DATA/16pk_A/16pk_F_Ca.pkl | ./DATA/16pk_A/16pk_V_ca.pkl | ./DATA/16pk_A/16pk.pdb |
... |
训练与推理
- 训练:使用
run_train.sh
脚本进行训练。 - 推理:使用
run_eval.sh
脚本进行推理。

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录