2DNMRGym
收藏Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/siriusxiao/2DNMRGym
下载链接
链接失效反馈官方服务:
资源简介:
2DNMRGym数据集包含了22000多个2D HSQC谱图,用于原子级别的图学习任务。HSQC是一种关键的2D NMR实验技术,对于分子的辨识和结构阐明具有重要作用。该数据集的训练部分通过成熟算法进行了标注,提供了银标准标签以便于替代训练;而评估部分则由有机化学领域训练超过10年的专家进行标注,确保了模型测试所用的高质量黄金标准标签。数据来源于HMDB和CH-NMR-NP。
创建时间:
2025-05-13
原始信息汇总
2DNMRGym数据集概述
数据集基本信息
- 许可证: CC-BY-NC-4.0
- 下载大小: 44,790,710字节
- 数据集大小: 183,952,610字节
数据集描述
该数据集包含超过22,000个2D HSQC谱图,用于原子级图学习任务。HSQC是2D NMR实验的重要类型,在分子鉴别和结构解析任务中至关重要。
数据集结构
数据特征
- graph_data: 包含分子图的字典表示,包括:
- edge_attr: 边属性序列
- edge_index: 边索引序列
- pos: 3D坐标序列
- solvent_class: 溶剂类别
- x: 节点特征序列
- c_peaks: 每个HSQC谱图中交叉峰的碳化学位移
- h_peaks: 每个HSQC谱图中交叉峰的质子化学位移
- filename: 文件名
数据划分
- train: 21,869个样本,176,931,469字节
- eval: 479个样本,3,856,453字节
- eval_zeroshot: 170个样本,1,528,168字节
- eval_fewshot: 188个样本,1,636,520字节
数据标注信息
- 训练集: 由已建立的算法标注,提供银标准标签
- 评估集: 由有机化学领域专家(10年以上经验)标注,提供金标准标签
数据来源
- 原始数据: 来自HMDB和CH-NMR-NP
- 代码仓库: https://github.com/siriusxiao62/Mol2DNMR
标注人员
- Dr. Hao Xu - 哈佛医学院
- Dr. Wang Duosheng - 波士顿学院
- Dr. Kumar Ambrish - 乔治亚大学
搜集汇总
数据集介绍

构建方式
2DNMRGym数据集聚焦于二维核磁共振(HSQC)谱图分析领域,其构建过程体现了多源数据融合与分级标注的理念。原始数据来源于HMDB和CH-NMR-NP两大权威数据库,通过算法自动标注与专家人工标注的双重验证机制确保数据质量。训练集采用成熟的算法生成银标准标签,而评估集则由具有十年以上有机化学研究经验的专业团队进行人工标注,形成金标准测试集。这种分层标注策略既保证了数据规模,又确保了标注可靠性。
特点
该数据集的核心价值在于其创新的图表示形式与多维特征融合。每个样本包含分子图数据结构,整合了节点特征、三维坐标等关键信息,完美适配图神经网络处理需求。碳化学位移(C-peaks)与质子化学位移(H-peaks)的交叉峰数据通过精确的索引标注与分子图建立映射关系,形成完整的谱图-结构对应体系。特别值得注意的是,数据集细分为常规评估、零样本评估和少样本评估三个子集,为模型泛化能力测试提供了系统化基准。
使用方法
在实际应用中,该数据集特别适合原子级图学习任务的开发与验证。研究者可通过加载预定义的图数据结构直接构建分子表征,利用碳/质子化学位移特征进行谱峰归属预测或分子结构解析。评估时建议优先使用专家标注的金标准测试集验证模型性能,而银标准训练集适合用于预训练或半监督学习。数据集的零样本和少样本划分为迁移学习研究提供了天然实验场景,使用者应注意不同分割间的数据分布差异以设计合理的验证方案。
背景与挑战
背景概述
2DNMRGym数据集是面向原子级图学习任务的专业数据集,专注于二维HSQC核磁共振谱的分析与应用。该数据集由哈佛医学院、波士顿学院和乔治亚大学的研究团队共同构建,旨在解决分子鉴别与结构解析中的关键科学问题。数据集包含超过22,000个二维HSQC谱图,训练集采用算法标注的银标准标签,评估集则由具有10年以上有机化学研究经验的专家提供金标准标注。原始数据源自HMDB和CH-NMR-NP数据库,为分子结构表征和药物发现领域提供了重要研究工具。
当前挑战
该数据集面临的核心挑战体现在两个方面:在领域问题层面,二维核磁共振谱的解析需要克服分子结构复杂性和谱峰重叠带来的信号识别困难;在构建过程中,如何实现算法标注的银标准与专家标注的金标准之间的有效对齐成为技术难点。同时,分子图的节点特征与三维坐标信息的精确匹配,以及碳化学位移与质子化学位移的交叉峰标注,都对数据质量提出了极高要求。
常用场景
经典使用场景
在有机化学与计算化学交叉领域,2DNMRGym数据集为研究者提供了丰富的二维HSQC谱图数据,这些数据在分子结构解析和原子级图学习任务中发挥着关键作用。通过结合分子图数据与化学位移信息,该数据集成为训练和验证图神经网络模型的理想选择,特别是在模拟真实实验室环境下分子结构鉴定过程。
实际应用
在制药工业的质量控制环节,基于该数据集训练的模型可快速解析复杂有机分子的HSQC谱图,显著缩短新药研发周期。环境监测领域则利用其构建的预测系统,实现了对天然产物混合物的高效识别。这些应用均受益于数据集对真实实验数据的系统化整理与标准化处理。
衍生相关工作
该数据集催生了多个开创性研究,包括哈佛团队开发的GraphNMR架构,其通过图注意力机制实现了化学位移的端到端预测。后续衍生的Mol2DNMR框架进一步整合了迁移学习策略,在少量标注数据场景下仍保持优异性能。这些工作为计算化学领域建立了新的方法论范式。
以上内容由遇见数据集搜集并总结生成



