five

CryoBench

收藏
arXiv2024-08-10 更新2024-08-14 收录
下载链接:
https://cryobench.cs.princeton.edu/
下载链接
链接失效反馈
官方服务:
资源简介:
CryoBench数据集由普林斯顿大学等机构创建,旨在解决低温电子显微镜中的异质性重建问题。该数据集包含五个合成数据集,涵盖了从简单到复杂的多种异质性类型,如构象异质性和组成异质性。数据集的创建过程涉及模拟原子模型和低温电子显微镜的正向过程,以生成合成图像。CryoBench数据集的应用领域主要是在低温电子显微镜和机器学习社区中,用于分析现有方法和推动新算法的发展。

The CryoBench dataset, developed by Princeton University and other institutions, aims to address the heterogeneity reconstruction problem in cryo-electron microscopy (cryo-EM). This dataset includes five synthetic datasets covering a spectrum of heterogeneity types ranging from simple to complex, such as conformational heterogeneity and compositional heterogeneity. The creation of the CryoBench dataset involves simulating atomic models and the forward imaging process of cryo-EM to generate synthetic micrographs. The CryoBench dataset is primarily applied in the cryo-EM and machine learning communities, serving to benchmark existing methods and advance the development of novel algorithms.
提供机构:
普林斯顿大学,计算机科学系,新泽西州,美国;计算生物学中心,计算数学中心,弗拉特曼研究所,纽约州,美国;不列颠哥伦比亚大学,计算机科学系,温哥华,加拿大
创建时间:
2024-08-10
搜集汇总
数据集介绍
main_image_url
构建方式
CryoBench数据集的构建采用了模拟冷冻电子断层扫描(cryo-EM)图像形成过程的方法。首先,设计了一系列原子模型作为真实结构的基准。然后,通过模拟电子与原子的散射势,从这些原子模型中生成冷冻电子断层扫描密度体积。最后,利用标准的冷冻电子断层扫描图像形成模型,在傅里叶域生成冷冻电子断层扫描图像。这些图像包含了不同类型的异质性,包括由简单运动和随机配置产生的构象异质性,以及由分子动力学模拟采样的数万个结构。此外,还设计了包含由核糖体组装状态混合物和细胞中存在的100个常见复合物组成的成分异质性的数据集。
特点
CryoBench数据集具有以下特点:1)包含五个数据集,代表不同的异质性来源和难度等级;2)数据集包含了由构象变化(例如抗体复合物的简单运动和随机配置)和成分变化(例如核糖体组装状态的混合物和细胞中存在的100个常见复合物)产生的异质性;3)数据集是合成生成的,以便具有真实结构的姿态、构象状态和成像参数,从而可以进行定量评估;4)数据集涵盖了从简单的诊断用途到更具有挑战性的异质性形式,以激发冷冻电子断层扫描领域的新方法。
使用方法
CryoBench数据集的使用方法包括:1)对现有异质性重建工具进行综合分析,包括神经和非神经方法及其对噪声的敏感性;2)提出新的指标,用于定量比较方法;3)使用数据集进行实验,以评估现有方法的性能和发现新算法的开发方向。CryoBench数据集和工具可在https://cryobench.cs.princeton.edu/获取。
背景与挑战
背景概述
冷冻电子断层扫描(cryo-EM)是一种从成像数据中确定高分辨率三维生物分子结构的有力技术。随着该技术能够捕获动态生物分子复合物,三维重建方法正越来越多地被开发出来以解决固有的结构异质性。然而,缺乏具有地面真实结构和验证指标的标准化基准,限制了该领域的发展。在此,我们提出了CryoBench,这是一套用于cryo-EM中异质性重建的数据集、指标和性能基准。我们提出了五个数据集,代表不同的异质性来源和难度级别。这包括从简单的运动和抗体复合物的随机配置中生成的构象异质性,以及从分子动力学模拟中采样的数万个结构。我们还设计了包含来自核糖体组装状态混合物的组成异质性以及细胞中100个常见复合物的数据集。然后,我们对最先进的异质性重建工具进行了全面分析,包括神经和非神经方法,并对其对噪声的敏感性进行了研究,并提出了新的指标以进行定量比较。我们希望这个基准将成为cryo-EM和机器学习社区分析现有方法和开发新算法的基础资源。
当前挑战
CryoBench数据集和相关挑战包括:1) 构象异质性,如抗体复合物的简单运动和随机配置;2) 组成异质性,如核糖体组装状态和细胞中100个常见复合物的混合物;3) 从分子动力学模拟中采样的数万个结构,以代表更复杂的运动。CryoBench数据集在重建过程中遇到了以下挑战:1) 缺乏具有地面真实结构和验证指标的标准化基准;2) 缺乏适合评估和比较方法的指标;3) 缺乏真实和通用的基准,这使得训练模型的性能难以泛化到不同的数据集或在没有专家直觉的情况下比较现有的异质性重建方法。此外,由于每种方法都应用于设计用于展示不同类型异质性的不同数据集,从业者无法比较并确定最适合其应用的方法。最后,由于这些方法主要在无地面真实信息的真实数据集上进行测试,因此很难评估给定方法在新数据集上是否产生准确的结果,或者可以信任其科学结论的程度。
常用场景
经典使用场景
CryoBench 数据集被广泛应用于冷冻电子断层扫描(cryo-EM)领域,以解决生物分子结构重建中的异质性难题。该数据集包含了多种异质性来源和难度级别的数据集,为研究者提供了测试和评估不同重建方法的平台。CryoBench 的经典使用场景包括评估现有方法的性能、开发新的算法,以及推动冷冻电子断层扫描技术的进步。
实际应用
CryoBench 数据集的实际应用场景包括生物分子结构研究、药物设计和疾病治疗等领域。通过 CryoBench 数据集,研究者可以更准确地重建生物分子的三维结构,从而更好地理解其功能和机制。此外,CryoBench 还可以用于开发新的冷冻电子断层扫描技术,以提高成像质量和重建精度。
衍生相关工作
CryoBench 数据集衍生了许多相关的经典工作,如 CryoDRGN、DRGN-AI 和 Opus-DSD 等。这些方法利用 CryoBench 数据集进行了广泛的实验和评估,取得了显著的成果。此外,CryoBench 还推动了冷冻电子断层扫描领域中新的评估指标和方法的发展,如 Per-Conformation FSC 和 AUC-FSC 等。这些指标和方法不仅提高了冷冻电子断层扫描技术的精度和可靠性,还为未来的研究提供了重要的参考和指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作