five

Spange溶剂属性数据集

收藏
arXiv2025-09-26 更新2025-09-30 收录
下载链接:
https://github.com/g-a-b-r-e-a-l/SoDaDE_Solvent_Data-Driven_Embeddings_from_Language_Models
下载链接
链接失效反馈
官方服务:
资源简介:
Spange溶剂属性数据集是一个包含191种溶剂及其分子属性的中小型数据集,包含溶剂类型、分子密度、极性参数等12种分子性质。该数据集用于训练SoDaDE模型,通过数据增强和随机洗牌生成更多数据点,用于预训练transformer模型,以创建有效的溶剂指纹。数据集旨在解决化学工业中使用有害溶剂的环境和健康问题,通过开发绿色溶剂替代方案来促进相关研究。

The Spange Solvent Property Dataset is a small and medium-sized dataset covering 191 solvents and their molecular properties. It includes 12 molecular properties such as solvent type, molecular density, and polarity parameters. This dataset is utilized for training the SoDaDE model, and generates additional data points through data augmentation and random shuffling, which are employed for pre-training Transformer models to develop effective solvent fingerprints. The dataset aims to address the environmental and health issues caused by the use of hazardous solvents in the chemical industry, and promote relevant research by developing green solvent alternatives.
提供机构:
帝国理工学院
创建时间:
2025-09-26
原始信息汇总

SoDaDE数据集概述

数据集基本信息

  • 数据集名称: SoDaDE: Solvent Data-Driven Embeddings with Small Transformer Models
  • 数据来源: Spange溶剂属性数据集,提取自论文"Reappraisal of Empirical Solvent Polarity Scales for Organic Solvents"的补充信息
  • 核心用途: 训练小型Transformer模型预测溶剂属性

数据内容

分子属性特征

数据集包含以下12种溶剂分子属性:

  • ET30: Reichardt极性参数
  • alpha: 氢键供体能力
  • beta: 氢键接受能力
  • pi_star: Kamlet-Taft极化率参数
  • SA: 溶剂酸度
  • SB: 溶剂碱度
  • SP: 溶剂极化率
  • SdP: 溶剂偶极性
  • N_mol_cm_3: 分子密度
  • n: 溶剂折射率
  • fn: 量化非特异性溶质-溶剂相互作用的函数
  • delta: 极化率校正项

数据格式

溶剂序列按以下格式组织:

<Begin>, <Solvent_Type>, <ChemBERTa_FP>, <Property_Label_1>, <Value_1>, <Property_Label_2>, <Value_2>, <Property_Label_3>, <Value_3>...<Value_12>, <End>

数据处理

  • 数据分割: 训练集、验证集和测试集分割脚本存储在datasets目录
  • 数据预处理: 运行data.py创建数据分割并将溶剂序列随机打乱50次
  • 数据标准化: 训练溶剂属性采用z-score标准化,标准化参数存储在normalisation_stats.json

模型训练

  • 训练文件: model目录中的decoder.py及相关配置文件
  • 训练方法: 随机掩码属性值进行训练
  • 模型保存: 最佳验证损失的模型保存至SoDaDE/fingerprint_model/saved_models_from_training
  • 损失记录: 训练和验证损失记录在SoDaDE/Loss_over_time.csv

模型评估

  • 评估方法: 预测5个测试值
  • 评估过程: 测试序列同样打乱50次,预测结果记录在test_predictions.json
  • 预测模式: 支持"Template"(使用真实值)和"Scratch"(使用模型预测值)两种模式

对比模型

  • 对比方法: 高斯过程(GP)、随机森林(RF)和训练值平均值(AVG)
  • 特征提取: 运行SoDaDE/other_property_prediction_methods/canon_smiles.py进行溶剂特征化
  • 训练数据: 使用data.py生成的train_set.csvval_set.csv
  • 过拟合防止: 采用留一法交叉验证
  • 模型训练文件:
    • SoDaDE/other_property_prediction_methods/fit_random_forest.py(随机森林)
    • SoDaDE/other_property_prediction_methods/fit_multitask_gp.py(高斯过程)
    • SoDaDE/other_property_prediction_methods/fill_TOI_no_norm.py(高斯过程)

性能比较

  • 比较方法: 运行eval.py测试属性预测模型的性能

可视化

  • 可视化内容: 注意力层和词标记的可视化
  • 可视化文件: 绘图代码存储在create_plots目录的plot.ipynb
搜集汇总
数据集介绍
main_image_url
构建方式
在溶剂表征研究领域,Spange溶剂属性数据集通过整合191种常见溶剂的12类分子性质构建而成,涵盖极性参数、氢键供受能力及极化率等关键物理化学指标。为克服数据规模限制,研究团队采用序列增强技术,通过随机置换溶剂属性值对生成高达12!种组合序列,并利用掩码Transformer架构在预训练过程中学习属性间的隐含关联。该模型通过因果掩码确保仅基于前置序列预测被遮蔽的数值,同时采用注意力掩码处理原始数据中的缺失值,最终在验证集上达到归一化均方误差0.107的预测精度。
使用方法
该数据集主要服务于溶剂表征的迁移学习框架:预训练阶段通过掩码属性预测任务构建64维溶剂嵌入向量,下游应用时可直接提取解码器末层输出作为溶剂指纹。在Catechol基准任务中,该嵌入可与温度、反应时间等变量共同输入多层感知机进行收率预测,支持固定权重与微调两种模式。对于混合溶剂场景,通过对多个溶剂嵌入加权平均实现特征融合。实验表明,基于该数据集的SoDaDE模型在单溶剂和全数据任务中分别取得0.0044与0.0026的均方误差,显著优于传统分子指纹与数据驱动表征方法。
背景与挑战
背景概述
在化学信息学领域,分子表征技术是推动机器学习应用的核心基础。2025年由帝国理工学院与SOLVE Chemistry联合发布的Spange溶剂属性数据集,聚焦于溶剂物理化学性质的系统量化。该数据集源自Spange等人对191种常见溶剂12项关键参数的整理工作,包括极性参数、氢键能力与极化率等指标,旨在解决传统分子指纹缺乏溶剂特异性表征的缺陷。这一工作为绿色溶剂替代研究提供了数据基础,通过构建专用溶剂表征模型,显著提升了反应产率预测的准确性,推动了可持续化学工艺的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需突破通用分子表征对溶剂特异性建模的局限,传统指纹无法捕捉溶剂极性、氢键作用等关键物理化学参数对反应机理的影响;在构建过程中,数据集规模受限且存在数值缺失,需通过数据增强与掩码训练等技术手段解决稀疏性问题,同时需平衡小样本训练与模型泛化能力,确保表征模型在真实反应环境中的预测稳定性。
常用场景
经典使用场景
在绿色溶剂替代研究领域,Spange溶剂属性数据集通过系统量化191种溶剂的12项关键物化参数,为机器学习模型提供了精准的溶剂特征表示基础。该数据集最经典的应用体现在基于Transformer架构的SoDaDE模型中,通过数据增强技术将有限样本扩展为多维特征序列,有效支撑了溶剂表征向量的生成与优化。
解决学术问题
该数据集显著缓解了传统分子表示方法在溶剂特异性建模中的局限性,通过整合Reichardt极性参数、氢键给受能力等物理化学描述符,解决了通用分子指纹缺乏溶剂环境上下文的问题。其构建的标准化特征空间为预测溶剂对反应产率的影响提供了可解释的量化依据,推动了计算化学与机器学习在绿色溶剂设计领域的深度融合。
实际应用
在化工产业实践中,该数据集支撑的溶剂表征模型已成功应用于邻苯二酚重排反应优化,通过精准预测混合溶剂体系的反应产率,为替代挥发性有机溶剂提供了数据驱动方案。相关技术可进一步扩展至制药合成路径优化、工业流程减碳等场景,助力实现化学品生产过程的绿色转型。
数据集最近研究
最新研究方向
在绿色化学领域,溶剂的环境影响日益成为研究焦点,Spange溶剂属性数据集通过整合191种溶剂的12种关键物理化学参数,为溶剂表征提供了重要基础。前沿研究聚焦于开发数据驱动的溶剂嵌入表示方法,如SoDaDE模型利用小型Transformer架构,通过数据增强技术从有限样本中学习溶剂特征,显著提升了反应产率预测精度。这一突破不仅推动了有害挥发性有机溶剂的替代研究,更建立了小数据集生成有效分子表示的范式,为绿色溶剂设计与化工过程优化提供了新方法论支撑。
相关研究论文
  • 1
    SoDaDE: Solvent Data-Driven Embeddings with Small Transformer Models帝国理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作