carbon-24_unique_with_enantiomorphs
收藏Hugging Face2025-12-09 更新2025-12-10 收录
下载链接:
https://huggingface.co/datasets/OMatG/carbon-24_unique_with_enantiomorphs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Carbon-24 Unique的配套数据集,包含了在Carbon-24数据集中发现的对映体对。Carbon-24_Unique_with_Enantiomorphs是从Carbon-24 (Pickard 2020, doi: 10.24435/materialscloud:2020.0026/v1)中培育出来的。包含4,330个独特的碳结构条目,其中对映体被视为不同的结构。元数据列指示了相应的对映体对的索引(如果有的话)以及来自Carbon-24的原始ID。
创建时间:
2025-12-03
原始信息汇总
Carbon-24 Unique with Enantiomorphs 数据集概述
基本信息
- 数据集名称:Carbon-24 Unique with Enantiomorphs
- 许可证:CC-BY-4.0
- 标签:molecular dynamics, mlip, interatomic potential
- 数据文件:train.parquet
来源与引用
- 来源:本数据集衍生自Carbon-24数据集(Pickard 2020,doi: 10.24435/materialscloud:2020.0026/v1)。
- 引用要求:若使用本数据集,请引用Martirossyan等人的工作(https://arxiv.org/abs/2509.12178)。
- 相关出版物:https://doi.org/10.48550/arXiv.2509.12178
内容描述
- 核心内容:本数据集是Carbon-24 Unique数据集的伴随数据集,包含了在Carbon-24数据集中发现的对映异构体对。
- 数据规模:包含4,330个独特的碳结构条目,其中对映异构体被视为不同的结构。
- 元数据:包含指示相应对映异构体对索引(如果存在)以及来自原始Carbon-24数据集的ID的列。
技术规格
- 唯一分子构型数量:4330
- 原子总数:48260
- 包含元素:C(碳)
作者信息
- 数据集作者:Maya M. Martirossyan, Thomas Egg, Philipp Hoellmer, George Karypis, Mark Transtrum, Adrian Roitberg, Mingjie Liu, Richard G. Hennig, Ellad B. Tadmor, Stefano Martiniani
搜集汇总
数据集介绍

构建方式
在碳材料科学领域,精确表征碳同素异形体的结构多样性对于开发新型功能材料至关重要。Carbon-24 Unique with Enantiomorphs数据集源于对Carbon-24原始数据库的系统性挖掘与精炼,该原始库由Pickard等人于2020年通过高通量计算筛选构建。研究团队在此基础上,专门识别并纳入了碳结构中存在的对映异构体对,将每个对映体视为独立构型进行记录。最终数据集包含4,330个独特的碳结构条目,每个条目均标注了对应的对映体索引及原始ID,确保了结构唯一性与手性信息的完整性。
特点
该数据集的核心特征在于其对手性碳结构的明确区分与系统收录。与常规结构数据集不同,它特别强调了对映异构体在能量和性质上的潜在差异,为研究手性效应在碳材料中的表现提供了专门资源。数据集规模适中,涵盖4,330个独特构型与48,260个原子,所有结构仅包含碳元素,保持了化学组成的纯净性。元数据中清晰标注了对映体关联信息,使得用户能够便捷地识别和比较手性配对,为对称性破缺研究及机器学习势函数训练提供了结构明确、注释清晰的高质量数据基础。
使用方法
该数据集主要应用于机器学习势函数开发、分子动力学模拟及碳材料结构预测等领域。用户可通过HuggingFace平台直接访问数据文件,格式为Parquet,便于使用Pandas等工具进行高效加载与处理。在具体研究中,可依据元数据中的对映体索引筛选特定手性对,或结合原始ID追溯至Carbon-24库进行扩展分析。数据遵循CC-BY-4.0许可,允许在注明引用的情况下自由使用、修改与分发,建议用户引用相关原始论文以尊重作者贡献。
背景与挑战
背景概述
在计算材料科学与分子动力学领域,碳同素异形体的结构探索与能量表征一直是核心研究议题。Carbon-24 Unique with Enantiomorphs数据集由Maya M. Martirossyan、Ellad B. Tadmor等学者于2024年构建,其基础源自Pickard等人于2020年发布的Carbon-24数据库。该数据集聚焦于碳的24原子团簇,旨在系统识别并收录其中的对映异构体对,从而为机器学习势函数(MLIP)的开发与验证提供高质量的结构-能量基准数据。通过对4330个独特碳构型的精确标注,该工作深化了对碳纳米结构手性特征的理解,推动了材料发现与原子尺度模拟方法的进步。
当前挑战
该数据集致力于解决碳纳米结构能量面精确建模的挑战,尤其在识别能量相近但对映异构的构型方面存在显著困难,这对机器学习势函数的区分能力提出了更高要求。在构建过程中,研究者需从原始Carbon-24数据库中高效筛选出所有可能的对映体对,并确保其能量与结构数据的一致性,这一过程涉及大规模构型比对与手性判别算法的优化。此外,保持数据集的独特性与完整性,同时明确标注对映体关联索引,也增加了数据清洗与元数据整合的复杂性。
常用场景
经典使用场景
在计算材料科学领域,碳同素异形体的探索始终是研究热点。Carbon-24 Unique with Enantiomorphs数据集通过提供包含对映异构体对的独特碳结构,为机器学习势函数(MLIP)的开发与验证提供了关键基准。研究者常利用该数据集训练原子间势能模型,以精确预测碳材料在极端条件下的结构稳定性与相变行为,从而高效探索庞大的构型空间。
解决学术问题
该数据集有效解决了碳材料研究中构型空间采样不完整与对映异构体区分模糊的学术难题。通过明确标注对映体对并确保结构唯一性,它为开发能够区分手性结构的机器学习模型提供了高质量数据基础。这显著提升了预测碳同素异形体热力学稳定性和动力学路径的准确性,推动了第一性原理计算与机器学习在材料发现中的深度融合。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在机器学习势函数方法的创新上。例如,研究团队利用其开发了能够同时处理多种碳键合类型的通用势函数,并验证了图神经网络在预测复杂碳相能量和力方面的优越性。这些工作不仅提升了碳材料模拟的可靠性,也为其他复杂元素体系的势函数开发提供了可借鉴的范式。
以上内容由遇见数据集搜集并总结生成



