jablonkagroup/sfm-experimental-data

Name: jablonkagroup/sfm-experimental-data
Creator: jablonkagroup
Published: 2026-05-08 12:28:06
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/jablonkagroup/sfm-experimental-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个化学光谱数据集，专注于分子性质预测，适用于表格回归和分类任务。数据集包含多个配置，涵盖不同类型的光谱数据，如核磁共振（CNMR和HNMR）、红外（IR）、质谱（MS）、粉末X射线衍射（PXRD）、拉曼（Raman）和紫外（UV）光谱。每个数据样本包括分子的SMILES表示（字符串类型）、光谱数据（长度为5000的浮点数列表）以及一系列分子子结构特征（使用SMARTS模式编码为int8类型），这些子结构特征用于描述化学官能团和分子片段。数据集可用于训练机器学习模型，以预测分子性质或进行光谱分析，标签涉及化学、光谱学和分子性质领域。

This dataset is a chemical spectroscopy dataset focused on molecular property prediction, suitable for tabular regression and classification tasks. It includes multiple configurations covering various types of spectroscopic data, such as nuclear magnetic resonance (CNMR and HNMR), infrared (IR), mass spectrometry (MS), powder X-ray diffraction (PXRD), Raman spectroscopy, and ultraviolet (UV) spectroscopy. Each data sample consists of a molecular SMILES representation (string type), spectral data (a list of float32 values with a length of 5000), and a series of molecular substructure features (encoded as int8 types using SMARTS patterns) that describe chemical functional groups and molecular fragments. The dataset can be used to train machine learning models for predicting molecular properties or conducting spectral analysis, with tags in chemistry, spectroscopy, and molecular-properties domains.

提供机构：

jablonkagroup

搜集汇总

数据集介绍

构建方式

sfm-experimental-data数据集旨在汇聚分子光谱与结构信息，为化学与材料科学领域提供基准测试资源。其构建过程遵循开放科学原则，整合了涵盖核磁共振（¹³C NMR、¹H NMR）、红外光谱（IR）、质谱（MS）、X射线粉末衍射（PXRD）、拉曼光谱（Raman）及紫外-可见光谱（UV）在内的八类子数据集。数据来源于已发表学术论文及公开数据库，采用多配置（config）方式组织，各子集均以独立配置文件存储，且明确划分训练集与测试集，例如acscentsci.4c01132和pxrd_s41524-026-02015-y配置含有独立测试分片，保障了模型评估的客观性。数据格式涵盖Parquet与通用文件格式，便于高效加载与处理。

特点

该数据集最显著的特点在于其多模态与结构化的融合设计。每个样本均以SMILES字符串表征分子结构，并关联对应的光谱数据（如acscentsci.4c01132子集提供长度5000的浮点型光谱向量），同时额外标注了多达数百种基于SMARTS模式的分子子结构指纹（如各类酰胺、羰基、芳香杂环等基团的存在性，以int8编码）。这种将连续光谱信号与离散化学子结构标签相结合的设计，使得数据集不仅适用于回归任务（如光谱预测），也能支撑分类任务（如官能团识别）。此外，数据集涵盖的谱学类型极为丰富，从磁共振到衍射，几乎覆盖了现代化学表征的主要手段，为跨模态机器学习研究奠定了坚实基础。

使用方法

使用该数据集时，研究者需通过HuggingFace Datasets库按配置名加载特定子集，例如通过`load_dataset('sfm-experimental-data', 'hnmr')`可获取氢核磁共振训练数据。数据加载后，可根据任务类型灵活应用：对于光谱预测任务，可选用SMILES作为输入特征、光谱向量作为回归目标；对于分子性质分类任务，则可利用子结构指纹作为监督标签。数据集的列名设计直接映射化学概念，如'[cX3H1]([nX2H0])[cX3H1]'对应特定环系结构，便于化学领域研究者直接理解。同时，部分配置（如acscentsci.4c01132）提供独立的测试分片，适用于构建标准化基准测试流程。值得注意的是，数据处理时需注意Parquet与通用文件格式的兼容性，并确保对光谱向量进行适当的归一化预处理。

背景与挑战

背景概述

sfm-experimental-data数据集由化学信息学领域的研究人员创建，旨在系统性地整合多种实验谱学数据与分子结构信息。该数据集涵盖了核磁共振（NMR）、红外（IR）、质谱（MS）、紫外（UV）、拉曼光谱以及X射线衍射（PXRD）等多种模态数据，并配以SMILES表示的分子结构和经过精确标注的化学子结构特征。其核心研究问题在于为机器学习模型提供高质量、多模态的化学实验数据，以推动分子性质预测、谱图解析以及结构-活性关系建模等方向的发展。该数据集的发布为化学信息学与光谱学交叉领域的研究奠定了重要基础，显著促进了数据驱动的分子科学进步。

当前挑战

该数据集主要面临两大挑战。在领域问题层面，化学实验数据通常存在仪器噪声、样本差异以及谱图分辨率不一等问题，导致机器学习模型在谱图特征提取与跨模态对齐时面临显著困难；同时，从分子结构到谱图的映射关系高度复杂，传统方法难以直接建模。在构建过程中，数据集的挑战体现在多源异构数据的标准化处理上，包括不同实验条件下谱图的可比性、化学子结构手工标注的准确性与覆盖度，以及海量光谱数据与结构信息的高效整合与质量控制。

常用场景

经典使用场景

sfm-experimental-data数据集汇聚了多种实验谱学数据，包括红外光谱（IR）、质谱（MS）、核磁共振（包括碳谱CNMR和氢谱HNMR）、紫外光谱（UV）、拉曼光谱（Raman）及X射线衍射（PXRD）等，并关联了对应的分子结构信息。其经典使用场景聚焦于基于光谱数据预测分子结构或性质，即构建将实验光谱与化学结构相映射的机器学习模型，亦可用于从分子结构反向预测其光谱特征，为计算机辅助结构解析与谱图模拟提供关键基准。

衍生相关工作

围绕sfm-experimental-data数据集，衍生了一系列开创性工作，例如利用图神经网络（GNN）与Transformer架构进行分子结构预测，以及结合自监督学习范式挖掘谱图与分子拓扑间的深层关联。科研人员还以此为基础，发展出面向单一谱图或多模态谱图融合的预训练模型，进一步拓展了机器学习在计算化学与光谱学交叉领域的应用边界，催生了诸如谱图检索、反应监测及逆合成分析等分支方向的研究突破。

数据集最近研究