five

CESPED

收藏
github2024-05-17 更新2024-05-31 收录
下载链接:
https://github.com/rsanchezgarc/cesped
下载链接
链接失效反馈
官方服务:
资源简介:
CESPED是一个专为Cryo-EM中的监督姿态估计设计的新数据集。您可以在https://arxiv.org/abs/2311.06194查看我们的手稿。

CESPED是一个专为冷冻电镜(Cryo-EM)中的监督姿态估计任务量身打造的新型数据集。详情及我们的研究手稿可通过链接https://arxiv.org/abs/2311.06194查阅。
创建时间:
2023-09-14
原始信息汇总

数据集概述

名称: CESPED (Cryo-EM Supervised Pose Estimation Dataset)

目的: 专为Cryo-EM中的监督式位姿估计设计。

数据结构:

  • 图像格式: .mrcs堆栈
  • 元数据格式: Relion starfile格式

安装:

  • 支持Python 3.11
  • 可通过pip自动安装或从GitHub仓库克隆安装

数据集使用

加载数据:

  • 使用ParticlesDataset类加载图像和位姿
  • 示例代码: python from cesped.particlesDataset import ParticlesDataset listOfEntries = ParticlesDataset.getCESPEDEntries() dataset = ParticlesDataset(targetName, halfset)

数据处理:

  • 自动下载数据集到默认目录,或指定目录
  • 支持预处理操作,如CTF校正

模型训练与评估:

  • 使用PyTorch进行模型训练
  • 评估通过evaluateEntry脚本进行,使用Relion进行重建

数据集内容

包含的目标:

EMPIAR ID 组成 对称性 图像像素 FSCR<sub>0.143</sub> (Å) Masked FSCR<sub>0.143</sub> (Å) 粒子数
10166 人类26S蛋白酶结合化疗药物Oprozomib C1 284 5.0 3.9 238631
10786 物质P-神经激肽受体G蛋白复合物 C1 184 3.3 3.0* 288659
10280 钙结合TMEM16F在纳米盘与PIP2补充 C2 182 3.6 3.0* 459504
11120 M22结合TSHR Gs 7TM G蛋白 C1 232 3.4 3.0* 244973
10648 PKM2与化合物5复合 D2 222 3.7 3.3 234956
10409 复制SARS-CoV-2聚合酶 C1 240 3.3 3.0* 406001
10374 人类ABCG2转运蛋白与抑制剂MZ29和5D3-Fab C2 216 3.7 3.0* 323681

(* Nyquist频率为1.5 Å/像素; 分辨率在0.143阈值下估计)

数据集评估

  • 评估通过evaluateEntry脚本进行,支持多种参数配置
  • 使用Relion进行重建,可通过配置文件或命令行参数指定Relion安装路径
  • 支持使用Singularity容器进行操作,简化环境配置
搜集汇总
数据集介绍
main_image_url
构建方式
CESPED数据集专为冷冻电镜(Cryo-EM)中的监督姿态估计任务设计,其构建过程结合了多种先进技术。数据集通过整合来自EMPIAR的高分辨率图像数据,并采用Relion软件进行图像预处理和元数据生成。图像数据以.mrcs格式存储,元数据则采用Relion的starfile格式,确保了数据的标准化和可复现性。此外,数据集还包含了详细的姿态信息,如欧拉角和旋转矩阵,为模型训练提供了丰富的监督信号。
特点
CESPED数据集的显著特点在于其高分辨率图像和详细的姿态信息,这些数据为冷冻电镜领域的姿态估计提供了强有力的支持。数据集中的图像经过精心处理,确保了高质量的输入数据,而元数据则包含了丰富的粒子信息,如对比传递函数(CTF)和图像位移。此外,数据集支持跨平台使用,用户可以通过简单的命令行操作下载和预处理数据,极大地方便了研究者的使用。
使用方法
使用CESPED数据集时,用户可以通过Python包cesped轻松加载和处理数据。首先,用户可以调用ParticlesDataset类来获取数据集的条目列表,并选择特定的条目进行加载。数据集支持自动下载和预处理,用户只需指定目标名称和半集编号即可。加载后的数据可以作为常规的PyTorch数据集使用,用户可以利用DataLoader进行批量加载和训练。训练完成后,用户可以通过updateMd方法更新元数据,并将其保存为starfile格式,以便在冷冻电镜软件中使用。
背景与挑战
背景概述
CESPED数据集是专为冷冻电镜(Cryo-EM)中的监督姿态估计任务而设计的新型数据集。该数据集由主要研究人员或机构于近期创建,旨在解决冷冻电镜图像中粒子姿态估计的核心问题。通过提供高质量的图像和姿态数据,CESPED数据集为研究人员提供了一个标准化的基准,以评估和改进姿态估计算法。该数据集的发布对冷冻电镜领域的研究具有重要意义,尤其是在提高蛋白质结构解析的精度和效率方面。
当前挑战
CESPED数据集在构建过程中面临多项挑战。首先,冷冻电镜图像的复杂性和高噪声水平使得姿态估计任务极具挑战性。其次,数据集的构建需要处理大量的图像和元数据,确保数据的准确性和一致性。此外,由于冷冻电镜技术的特殊性,数据集的预处理和后处理步骤也需精心设计,以确保最终结果的可靠性。最后,跨平台的使用和兼容性问题也是该数据集需要解决的重要挑战,以确保不同深度学习框架的用户都能有效利用该数据集。
常用场景
经典使用场景
CESPED数据集在冷冻电镜(Cryo-EM)领域中,主要用于监督姿态估计任务。其经典使用场景包括加载图像和姿态数据,通过深度学习模型预测粒子的旋转矩阵和位移,并将预测结果更新到元数据中,以便在Cryo-EM软件中进一步处理。此外,CESPED还支持交叉平台使用,用户可以下载数据集条目并进行预处理,以便在不同的深度学习框架中进行实验。
实际应用
在实际应用中,CESPED数据集被广泛用于开发和优化冷冻电镜图像处理算法。例如,研究人员可以使用CESPED数据集训练深度学习模型,以自动识别和校正粒子图像的姿态,从而提高图像重建的分辨率和准确性。这些应用在药物设计、病毒学和蛋白质结构解析等领域具有重要价值,为科学研究和工业应用提供了强大的工具。
衍生相关工作
CESPED数据集的发布催生了一系列相关研究工作。例如,基于CESPED的深度学习模型被用于改进Cryo-EM图像的姿态估计,进一步提高了图像重建的分辨率。此外,CESPED还启发了其他研究人员开发新的数据集和算法,以解决冷冻电镜领域的其他挑战,如图像去噪、对齐和分类等。这些衍生工作不仅丰富了Cryo-EM领域的研究内容,还推动了相关技术的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作