CESPED
收藏github2024-05-17 更新2024-05-31 收录
下载链接:
https://github.com/rsanchezgarc/cesped
下载链接
链接失效反馈官方服务:
资源简介:
CESPED是一个专为Cryo-EM中的监督姿态估计设计的新数据集。您可以在https://arxiv.org/abs/2311.06194查看我们的手稿。
CESPED是一个专为冷冻电镜(Cryo-EM)中的监督姿态估计任务量身打造的新型数据集。详情及我们的研究手稿可通过链接https://arxiv.org/abs/2311.06194查阅。
创建时间:
2023-09-14
原始信息汇总
数据集概述
名称: CESPED (Cryo-EM Supervised Pose Estimation Dataset)
目的: 专为Cryo-EM中的监督式位姿估计设计。
数据结构:
- 图像格式: .mrcs堆栈
- 元数据格式: Relion starfile格式
安装:
- 支持Python 3.11
- 可通过pip自动安装或从GitHub仓库克隆安装
数据集使用
加载数据:
- 使用
ParticlesDataset类加载图像和位姿 - 示例代码: python from cesped.particlesDataset import ParticlesDataset listOfEntries = ParticlesDataset.getCESPEDEntries() dataset = ParticlesDataset(targetName, halfset)
数据处理:
- 自动下载数据集到默认目录,或指定目录
- 支持预处理操作,如CTF校正
模型训练与评估:
- 使用PyTorch进行模型训练
- 评估通过
evaluateEntry脚本进行,使用Relion进行重建
数据集内容
包含的目标:
| EMPIAR ID | 组成 | 对称性 | 图像像素 | FSCR<sub>0.143</sub> (Å) | Masked FSCR<sub>0.143</sub> (Å) | 粒子数 |
|---|---|---|---|---|---|---|
| 10166 | 人类26S蛋白酶结合化疗药物Oprozomib | C1 | 284 | 5.0 | 3.9 | 238631 |
| 10786 | 物质P-神经激肽受体G蛋白复合物 | C1 | 184 | 3.3 | 3.0* | 288659 |
| 10280 | 钙结合TMEM16F在纳米盘与PIP2补充 | C2 | 182 | 3.6 | 3.0* | 459504 |
| 11120 | M22结合TSHR Gs 7TM G蛋白 | C1 | 232 | 3.4 | 3.0* | 244973 |
| 10648 | PKM2与化合物5复合 | D2 | 222 | 3.7 | 3.3 | 234956 |
| 10409 | 复制SARS-CoV-2聚合酶 | C1 | 240 | 3.3 | 3.0* | 406001 |
| 10374 | 人类ABCG2转运蛋白与抑制剂MZ29和5D3-Fab | C2 | 216 | 3.7 | 3.0* | 323681 |
(* Nyquist频率为1.5 Å/像素; 分辨率在0.143阈值下估计)
数据集评估
- 评估通过
evaluateEntry脚本进行,支持多种参数配置 - 使用Relion进行重建,可通过配置文件或命令行参数指定Relion安装路径
- 支持使用Singularity容器进行操作,简化环境配置
搜集汇总
数据集介绍

构建方式
CESPED数据集专为冷冻电镜(Cryo-EM)中的监督姿态估计任务设计,其构建过程结合了多种先进技术。数据集通过整合来自EMPIAR的高分辨率图像数据,并采用Relion软件进行图像预处理和元数据生成。图像数据以.mrcs格式存储,元数据则采用Relion的starfile格式,确保了数据的标准化和可复现性。此外,数据集还包含了详细的姿态信息,如欧拉角和旋转矩阵,为模型训练提供了丰富的监督信号。
特点
CESPED数据集的显著特点在于其高分辨率图像和详细的姿态信息,这些数据为冷冻电镜领域的姿态估计提供了强有力的支持。数据集中的图像经过精心处理,确保了高质量的输入数据,而元数据则包含了丰富的粒子信息,如对比传递函数(CTF)和图像位移。此外,数据集支持跨平台使用,用户可以通过简单的命令行操作下载和预处理数据,极大地方便了研究者的使用。
使用方法
使用CESPED数据集时,用户可以通过Python包cesped轻松加载和处理数据。首先,用户可以调用ParticlesDataset类来获取数据集的条目列表,并选择特定的条目进行加载。数据集支持自动下载和预处理,用户只需指定目标名称和半集编号即可。加载后的数据可以作为常规的PyTorch数据集使用,用户可以利用DataLoader进行批量加载和训练。训练完成后,用户可以通过updateMd方法更新元数据,并将其保存为starfile格式,以便在冷冻电镜软件中使用。
背景与挑战
背景概述
CESPED数据集是专为冷冻电镜(Cryo-EM)中的监督姿态估计任务而设计的新型数据集。该数据集由主要研究人员或机构于近期创建,旨在解决冷冻电镜图像中粒子姿态估计的核心问题。通过提供高质量的图像和姿态数据,CESPED数据集为研究人员提供了一个标准化的基准,以评估和改进姿态估计算法。该数据集的发布对冷冻电镜领域的研究具有重要意义,尤其是在提高蛋白质结构解析的精度和效率方面。
当前挑战
CESPED数据集在构建过程中面临多项挑战。首先,冷冻电镜图像的复杂性和高噪声水平使得姿态估计任务极具挑战性。其次,数据集的构建需要处理大量的图像和元数据,确保数据的准确性和一致性。此外,由于冷冻电镜技术的特殊性,数据集的预处理和后处理步骤也需精心设计,以确保最终结果的可靠性。最后,跨平台的使用和兼容性问题也是该数据集需要解决的重要挑战,以确保不同深度学习框架的用户都能有效利用该数据集。
常用场景
经典使用场景
CESPED数据集在冷冻电镜(Cryo-EM)领域中,主要用于监督姿态估计任务。其经典使用场景包括加载图像和姿态数据,通过深度学习模型预测粒子的旋转矩阵和位移,并将预测结果更新到元数据中,以便在Cryo-EM软件中进一步处理。此外,CESPED还支持交叉平台使用,用户可以下载数据集条目并进行预处理,以便在不同的深度学习框架中进行实验。
实际应用
在实际应用中,CESPED数据集被广泛用于开发和优化冷冻电镜图像处理算法。例如,研究人员可以使用CESPED数据集训练深度学习模型,以自动识别和校正粒子图像的姿态,从而提高图像重建的分辨率和准确性。这些应用在药物设计、病毒学和蛋白质结构解析等领域具有重要价值,为科学研究和工业应用提供了强大的工具。
衍生相关工作
CESPED数据集的发布催生了一系列相关研究工作。例如,基于CESPED的深度学习模型被用于改进Cryo-EM图像的姿态估计,进一步提高了图像重建的分辨率。此外,CESPED还启发了其他研究人员开发新的数据集和算法,以解决冷冻电镜领域的其他挑战,如图像去噪、对齐和分类等。这些衍生工作不仅丰富了Cryo-EM领域的研究内容,还推动了相关技术的快速发展。
以上内容由遇见数据集搜集并总结生成



