five

QCell

收藏
arXiv2025-10-11 更新2025-11-19 收录
下载链接:
https://zenodo.org/records/17234182
下载链接
链接失效反馈
官方服务:
资源简介:
QCell数据集是一个包含52.5万个量子力学计算的生物分子片段的精选集合,涵盖了碳水化合物、核酸、脂质、二聚体和离子簇等生物分子。该数据集的计算使用了混合密度泛函理论,并采用了非局域多体色散相互作用,以捕捉量子力学的PBE0+MBD(-NL)水平。QCell数据集补充了现有的数据集,使得可用的数据点总数达到4100万个分子系统,所有这些数据点都是使用混合密度泛函理论计算的。QCell数据集因此为训练下一代机器学习力场提供了宝贵的资源,这些力场能够模拟生物分子动力学中复杂的相互作用,而这些相互作用超出了小分子范畴。

The QCell dataset is a curated collection of 525,000 biomolecular fragments that have undergone quantum mechanical calculations. All calculations were conducted with hybrid density functional theory and non-local many-body dispersion interactions, achieving the PBE0+MBD(-NL) level of quantum mechanical accuracy, covering biomolecular species including carbohydrates, nucleic acids, lipids, dimers, and ionic clusters. The QCell dataset complements existing datasets, bringing the total number of available molecular systems to 41 million, with all these data points computed using hybrid density functional theory. Consequently, the QCell dataset serves as a valuable resource for training next-generation machine learning force fields capable of simulating complex interactions in biomolecular dynamics that exceed the scope of small molecules.
提供机构:
卢森堡大学物理与材料科学系
创建时间:
2025-10-11
搜集汇总
数据集介绍
main_image_url
构建方式
在生物分子力场开发领域,构建高质量量子力学数据集面临化学多样性不足的挑战。QCell数据集通过多阶段流程系统构建:首先从核酸、脂质和碳水化合物等生物分子类别中筛选基础结构单元,利用分子动力学模拟和构象生成工具进行广泛采样;随后采用几何聚类算法选取代表性片段,并通过DFTB+MBD方法进行预优化以消除高能构象冲突;最终采用非经验性PBE0+MBD(-NL)量子力学方法对52.5万个生物分子片段执行高精度计算,原子规模覆盖2至402个原子,确保数据兼具化学广度与物理精确性。
特点
该数据集显著拓展了现有量子力学数据的生物分子覆盖范围,特别聚焦于核酸、脂质和碳水化合物这三类约占细胞生物质40%的关键组分。其元素组成集中于生物相关元素(H、C、N、O、P、S)及重要生物离子,通过深度构象采样捕捉生物组装体中重复出现的半局域化学环境与相互作用模式。与现有数据集采用一致的PBE0+MBD(-NL)理论级别,支持与QCML、QM7-X等资源的无缝整合,共同构成涵盖82种元素、超4100万数据点的统一训练集,为开发跨生物系统可迁移的机器学习力场奠定基础。
使用方法
研究者可通过Zenodo数据仓库获取按生物分子类别分组的五个HDF5归档文件,每个分子包含原子坐标、能量分量、力场参数等34-35种量子力学性质。数据集支持直接用于训练如SO3LR等架构的机器学习力场,通过读取HDF5格式的电子结构特征与力场标签,可构建能够预测生物分子形成能与原子上力的模型。配套提供的XYZ格式转换脚本便于与其他计算化学工具链集成,其统一的理论框架确保与现有PBE0+MBD(-NL)数据集联合使用时具有物理一致性,为模拟复杂生物分子动力学提供标准化数据基础。
背景与挑战
背景概述
在计算化学与生物物理领域,精确模拟生物分子系统的相互作用一直是核心挑战。卢森堡大学物理与材料科学系的Adil Kabylda等人于2025年推出的QCell数据集,旨在解决机器学习力场开发中高质量量子力学数据稀缺的问题。该数据集聚焦于蛋白质之外的三大生物分子类别——核酸、脂质和碳水化合物,通过非经验性混合密度泛函理论PBE0+MBD(-NL)计算了52.5万个生物分子片段,填补了现有数据集对约40%细胞生物质覆盖的空白。QCell与现有数据集整合后形成了涵盖4100万数据点的资源,为模拟复杂生物分子动力学提供了关键支撑。
当前挑战
QCell数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域层面,需克服生物分子系统量子力学描述的复杂性,特别是核酸构象多样性、脂质膜相互作用及碳水化合物糖苷键柔性的精确建模,这些因素直接影响机器学习力场的泛化能力。构建过程中,需通过多步骤工作流协调分子动力学采样与量子计算,确保从2至402原子尺度片段的结构代表性,同时维持PBE0+MBD(-NL)理论级别的一致性,并处理带电体系与非共价相互作用的高精度计算需求。
常用场景
经典使用场景
在计算生物物理学领域,QCell数据集作为量子力学计算资源,被广泛用于训练下一代机器学习力场模型。其核心价值在于填补了现有数据集在核酸、脂质和碳水化合物等关键生物分子类别上的空白,通过提供52.5万条基于PBE0+MBD(-NL)理论的高精度计算数据,使研究人员能够构建更全面、可迁移的力场,从而精确模拟生物分子体系的动态行为与相互作用。
衍生相关工作
QCell数据集催生了多项创新性研究工作,其中代表性成果包括SO3LR架构的机器学习力场开发。该模型通过整合QCell与QCML、GEMS等数据集,实现了对带电体系和生物大分子的长程相互作用精确建模。此外,基于QCell的预训练力场已被应用于DNA拉伸模拟、离子通道传导机制研究等前沿课题,形成从数据生成到跨尺度模拟的完整方法论链条。
数据集最近研究
最新研究方向
在计算生物物理领域,QCell数据集正推动机器学习力场研究向多尺度生物分子系统拓展。该数据集通过整合核酸、脂质和碳水化合物等关键生物分子片段的高精度量子力学计算,填补了现有数据库对细胞质40%成分覆盖不足的空白。前沿研究聚焦于利用其非经验性PBE0+MBD(-NL)理论框架,开发能够同时捕捉π-π堆叠、离子溶剂化及糖苷键旋转等复杂相互作用的通用力场。这一进展使得模拟DNA螺旋构象转换、膜脂动态组装等生物过程时,既能保持量子力学精度又可实现微秒级动力学采样,为药物设计及合成生物学提供了新范式。
相关研究论文
  • 1
    通过卢森堡大学物理与材料科学系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作