nmr-spectra
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/AdrianM0/nmr-spectra
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含有机化合物的信息,具体特征包括SMILES表示、溶剂类型、频率(MHz)以及氢核磁共振(h_NMR)数据。数据集分为训练集、验证集和测试集,总共包含499000个示例,其中训练集498000个示例,验证集和测试集各1000个示例。
创建时间:
2025-11-20
原始信息汇总
数据集概述
基本信息
- 数据集名称: nmr-spectra
- 存储位置: https://huggingface.co/datasets/AdrianM0/nmr-spectra
- 下载大小: 9,914,745,009 字节
- 数据集大小: 10,033,102,268 字节
数据特征
- SMILES: 字符串类型,表示分子结构
- 溶剂: 字符串类型,表示实验溶剂条件
- 频率(MHz): 整数类型,表示核磁共振频率
- 氢谱数据: 浮点数列表类型,存储核磁共振氢谱数据
数据划分
| 划分类型 | 样本数量 | 数据大小 |
|---|---|---|
| 训练集 | 498,000 | 9,992,969,477 字节 |
| 验证集 | 1,000 | 20,066,393 字节 |
| 测试集 | 1,000 | 20,066,398 字节 |
文件结构
- 训练集文件路径: data/train-*
- 验证集文件路径: data/val-*
- 测试集文件路径: data/test-*
搜集汇总
数据集介绍

构建方式
在计算化学与药物研发领域,核磁共振(NMR)光谱数据对于分子结构解析至关重要。该数据集通过整合大量实验和模拟数据构建而成,涵盖近50万条样本,每条记录包含分子的SMILES表示、溶剂环境以及以兆赫为单位的频率参数。数据被精心划分为训练集、验证集和测试集,确保模型评估的严谨性,所有光谱数据以高精度浮点格式存储,保障了科学计算的可靠性。
特点
该数据集以其全面性和专业性著称,不仅提供分子结构的一维SMILES编码,还包含溶剂条件与NMR频率的精确对应关系。光谱数据以标准化列表形式呈现,便于机器学习模型直接处理。数据集规模庞大,覆盖多样化学空间,其分层抽样设计有效避免了过拟合问题,为光谱预测任务提供了高质量基准。
使用方法
研究人员可通过加载标准数据分割直接开展机器学习实验,训练集适用于模型参数优化,验证集用于超参数调优,测试集则提供最终性能评估。每个样本的SMILES字符串可与化学信息学工具链集成,而浮点数组格式的NMR光谱支持主流深度学习框架的直接输入,实现从分子结构到光谱特性的端到端学习。
背景与挑战
背景概述
核磁共振波谱技术作为有机化学结构解析的核心手段,其数字化进程推动了计算化学与人工智能的交叉融合。nmr-spectra数据集由科研机构在2020年代初期构建,聚焦于分子结构与氢谱信号的映射关系研究。该数据集通过整合近五十万组分子SMILES表示与对应核磁共振氢谱数据,旨在建立从分子结构到谱图特征的智能预测模型,为药物发现和材料设计提供数据驱动的分析范式,显著提升了传统谱图解析的自动化水平。
当前挑战
该数据集需解决有机化合物氢谱预测中化学位移与耦合常数的高精度建模难题,涉及官能团环境敏感性与溶剂效应的复杂非线性关系。构建过程中面临实验条件标准化挑战,包括不同磁场强度仪器的数据校准、溶剂极性对峰形影响的量化统一,以及海量原始谱图的信号去噪与峰值提取等技术瓶颈,这些因素共同制约了数据质量的均一性与模型泛化能力。
常用场景
经典使用场景
在计算化学与药物发现领域,nmr-spectra数据集通过整合分子结构(SMILES)、溶剂环境及核磁共振频率参数,为核磁共振谱预测任务提供了标准化基准。该数据集典型应用于训练深度学习模型,以探索分子结构与氢谱化学位移之间的复杂映射关系,有效支撑有机化合物构型分析的自动化研究。
解决学术问题
该数据集显著缓解了传统实验方法获取核磁共振数据的高成本与低效率问题,为计算化学领域提供了可扩展的验证平台。通过系统化关联分子特征与谱图模式,它不仅推动了量子化学计算与机器学习方法的交叉融合,更在分子动力学模拟与光谱理论验证方面产生了深远影响。
衍生相关工作
基于该数据集衍生的研究已催生多项突破性工作,包括图神经网络驱动的谱图生成模型、跨溶剂迁移学习框架以及面向逆合成分析的谱图解析算法。这些成果不仅拓展了光谱预测的精度边界,更为自动化分子设计系统的演进注入了持续动力。
以上内容由遇见数据集搜集并总结生成



