opendatalab-experimental-nmr-peaks

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/SpectrumWorld/opendatalab-experimental-nmr-peaks

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从OpenDataLab实验光谱数据库中提取的实验性核磁共振（NMR）峰值序列。数据集包括化学化合物的H-NMR和C-NMR峰值序列，以及它们的SMILES表示和分子式。数据集总共有533,595个化合物样本，分为333个批次文件，每个文件为Parquet格式。每个样本包含标准化SMILES字符串、分子式、H-NMR峰值序列（保留两位小数，若无数据则为空字符串）、C-NMR峰值序列（保留两位小数，若无数据则为空字符串）和数据来源标识（始终为“experimental”）。数据集经过处理，包括从原始光谱数据中提取NMR峰值序列、使用RDKit从SMILES计算分子式、格式化峰值序列到两位小数以及添加数据来源标识等步骤。

创建时间：

2025-12-08

原始信息汇总

OpenDataLab Experimental NMR Peaks 数据集概述

数据集基本信息

数据集名称: OpenDataLab Experimental NMR Peaks Dataset
发布者: SpectrumWorld
发布年份: 2024
许可证: MIT License
语言: 英语
任务类别: 其他
标签: 化学、核磁共振、光谱学、实验、分子式、SMILES
规模类别: 100K<n<1M

数据集内容与结构

数据来源: OpenDataLab实验光谱数据库
数据内容: 包含从实验光谱中提取的核磁共振（NMR）峰序列，涵盖化合物的H-NMR和C-NMR峰序列、SMILES表示和分子式。
样本总数: 533,595 个化合物
批次数量: 333 个批次文件
数据格式: Parquet文件（每个批次一个文件）
文件命名: batch_0000_peaks.parquet 至 batch_0332_peaks.parquet

数据字段说明

每个样本包含以下字段：

smiles: 分子的标准化SMILES字符串表示
molecular_formula: 分子式（例如："C9H12O6"）
h_nmr_peaks_sequence: 以空格分隔的H-NMR峰位置（保留两位小数），若无H-NMR数据则为空字符串
c_nmr_peaks_sequence: 以空格分隔的C-NMR峰位置（保留两位小数），若无C-NMR数据则为空字符串
source: 数据源标识符，本数据集始终为"experimental"

数据集统计信息

总化合物数: 533,595
每批次平均化合物数: 约1,602个
批次大小范围: 545 至 3,170 个化合物
H-NMR数据可用性: 大多数样本具有H-NMR数据
C-NMR数据可用性: 部分样本具有C-NMR数据

数据处理流程

从解析的化学位移数据中提取NMR峰序列
使用RDKit从SMILES计算分子式
将峰序列格式化为两位小数
添加数据来源标识符以确保数据可追溯性

使用方式

可通过Hugging Face datasets库加载数据集，具体代码示例见数据集详情页。

引用信息

若使用本数据集，请引用提供的BibTeX条目。

搜集汇总

数据集介绍

构建方式

在核磁共振光谱学领域，高质量实验数据的积累对于分子结构解析至关重要。本数据集源自OpenDataLab实验光谱数据库，通过系统化处理流程构建而成。原始实验光谱数据经过解析后，提取出氢谱与碳谱的化学位移峰值序列，并利用RDKit工具从标准化SMILES表示中计算出分子式。所有峰值数据均保留两位小数精度，最终整合为包含533,595个化合物样本的集合，按333个Parquet文件批次存储，确保了数据的可追溯性与结构一致性。

特点

该数据集的核心价值在于其全面覆盖了实验核磁共振光谱的关键信息。每个样本均提供标准化SMILES字符串、分子式以及氢谱与碳谱的峰值序列，其中峰值数据以空格分隔的字符串形式呈现，缺失数据则以空字符串标注。数据集规模达到53万余个化合物，多数样本包含氢谱数据，部分涵盖碳谱数据，且批次文件规模在545至3,170个样本之间波动，为大规模光谱分析提供了丰富的实验基准。

使用方法

研究人员可通过Hugging Face的datasets库直接加载本数据集，便捷地访问其结构化内容。使用load_dataset函数指定数据集名称与训练分割后，即可迭代获取每个样本的完整字段，包括SMILES、分子式及光谱峰值序列。这种设计便于集成至机器学习流程中，用于光谱预测、分子性质分析或化学信息学模型训练，同时严格的数值格式与数据源标识保障了实验的可重复性与结果的可信度。

背景与挑战

背景概述

核磁共振波谱学作为化学结构解析的关键技术，其数据在有机化学与药物研发领域具有不可替代的价值。OpenDataLab Experimental NMR Peaks数据集由SpectrumWorld团队于2024年构建，整合了来自OpenDataLab实验光谱数据库的533,595个化合物样本，涵盖氢谱与碳谱的峰值序列、SMILES分子表示及分子式信息。该数据集旨在为计算化学与机器学习研究提供大规模、标准化的实验核磁共振数据，推动分子表征与光谱预测模型的创新发展，为自动化结构鉴定与逆向合成分析奠定数据基础。

当前挑战

在核磁共振数据分析领域，精准关联光谱特征与分子结构始终是核心挑战，涉及峰值重叠、溶剂效应及仪器偏差等复杂因素的干扰。本数据集构建过程中，需从原始实验光谱中提取并标准化峰值序列，同时确保SMILES表示的化学准确性及分子式计算的一致性；此外，数据覆盖度存在差异，部分样本缺乏碳谱数据，且批次间样本分布不均，这些因素均对模型的泛化能力与训练稳定性提出了更高要求。

常用场景

经典使用场景

在计算化学与光谱分析领域，核磁共振（NMR）谱图解析是化合物结构鉴定的核心环节。OpenDataLab Experimental NMR Peaks数据集通过提供超过53万种化合物的实验性H-NMR与C-NMR峰序列，为机器学习模型训练提供了大规模、标准化的基准数据。研究者常利用该数据集构建深度神经网络，以学习从分子结构（SMILES表示）到其NMR谱峰位置的映射关系，从而推动自动化谱图解析技术的发展。

实际应用

在药物发现与材料科学中，快速准确的化合物表征至关重要。该数据集支撑的工具可集成于化学信息学平台，辅助科研人员预测合成分子的NMR谱图，加速先导化合物筛选与优化流程。工业实验室能借此验证合成产物结构，减少对昂贵仪器与专家经验的依赖，提升研发效率。此外，教育领域亦可利用其进行谱图解析教学，培养学生对光谱数据的直观理解。

衍生相关工作

基于该数据集衍生的经典工作包括开发端到端的NMR谱预测模型，如使用图神经网络或Transformer架构直接从SMILES序列生成峰位信息。这些模型常作为基准在学术论文中被广泛引用，并催生了专注于光谱-结构关联的新算法研究。后续工作进一步探索了多任务学习框架，同时预测多种光谱属性，推动了跨模态化学数据融合的前沿进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集