DESs_density_data.csv 和 DESs_melting_point_data.csv

github2024-11-05 更新2024-11-28 收录

下载链接：

https://github.com/tingtingwuwu/Predicting-Melting-Point-and-Density-of-DESs-by-ChemBERTa-ML

下载链接

链接失效反馈

官方服务：

资源简介：

DESs_density_data.csv 包含深共晶溶剂的密度数据，用于预测其密度。DESs_melting_point_data.csv 包含深共晶溶剂的熔点数据，用于预测其熔点。

DESs_density_data.csv contains density data of deep eutectic solvents for predicting their density. DESs_melting_point_data.csv contains melting point data of deep eutectic solvents for predicting their melting points.

创建时间：

2024-11-04

原始信息汇总

数据集概述

数据集内容

数据文件

DESs_density_data.csv: 包含DESs的密度数据。
DESs_melting_point_data.csv: 包含DESs的熔点数据。

数据处理

descriptor_extraction.py: 从SMILES字符串中提取分子描述符和ChemBERTa嵌入。

数据集用途

模型训练

chemberta_model_comparison.py: 训练多个模型（如ExtraTreesRegressor、RandomForestRegressor）以预测DES的属性，并比较它们的性能。
chemberta_model_grid_search.py: 进行网格搜索和交叉验证以优化超参数，进一步提高模型准确性和鲁棒性。

结果分析

correlation_heatmap.py: 生成特征相关性热图，帮助识别冗余或高度相关的描述符。
feature_importance_extraction.py: 提取并排序特征的重要性，提供哪些描述符对DES属性预测影响最大的见解。

数据集来源

共享链接

链接: https://pan.baidu.com/s/1bZvsbRFLWsGijbSIOEy6zQ?pwd=3fwn
访问码: 3fwn

搜集汇总

数据集介绍

构建方式

在构建DESs_density_data.csv和DESs_melting_point_data.csv数据集时，研究者采用了先进的化学信息学方法。首先，通过ChemBERTa模型从SMILES字符串中提取高维嵌入，这些嵌入能够捕捉分子间的复杂交互和细微结构特征。随后，结合RDKit工具提取的物理化学描述符，以增强模型的解释性和预测精度。这种多层次特征的整合，确保了数据集在描述深共晶溶剂（DESs）的密度和熔点特性时的全面性和准确性。

特点

该数据集的显著特点在于其多源特征的融合和高度精细化的分子描述。通过结合ChemBERTa的高维嵌入和RDKit的物理化学描述符，数据集不仅能够捕捉分子结构的复杂性，还能提供对DESs性质的深入理解。此外，数据集经过严格的网格搜索和十折交叉验证，确保了模型的鲁棒性和泛化能力，使其在化学信息学领域具有广泛的应用前景。

使用方法

使用该数据集时，用户首先需安装所需的Python包，可通过运行`pip install -r requirements.txt`完成环境配置。随后，用户可按步骤执行数据准备、模型训练与比较、超参数调优等操作。具体而言，运行`descriptor_extraction.py`提取分子描述符和ChemBERTa嵌入，然后通过`chemberta_model_comparison.py`和`chemberta_model_grid_search.py`进行模型训练和优化。最终，用户可通过生成相关性热图和分析特征重要性，进一步理解数据集的内在结构和预测模型的性能。

背景与挑战

背景概述

深共晶溶剂（DESs）因其低毒性、生物降解性和广泛的应用性，已成为传统溶剂的有前景的可持续替代品。然而，预测DESs的关键性质，如熔点和密度，由于其复杂的分子结构而具有挑战性。传统预测模型通常难以从SMILES（简化分子输入线输入系统）表示中捕捉微妙的结构特征，导致预测精度有限。本研究利用预训练的Transformer模型ChemBERTa，从SMILES字符串中提取高维嵌入，有效捕捉复杂的分子相互作用和细微的结构特征。通过特征重要性分析，识别了ChemBERTa嵌入的某些局限性，并结合RDKit的额外物理化学描述符，增强了特征的可解释性和预测精度。优化后的集成模型，包括ExtraTreesRegressor（ETR）和XGBRegressor（XGBR），在DESs熔点和密度的预测中实现了显著的精度提升。

当前挑战

该数据集面临的挑战主要集中在两个方面：一是预测深共晶溶剂（DESs）的熔点和密度时，由于其复杂的分子结构，传统模型难以捕捉微妙的结构特征，导致预测精度有限；二是在构建过程中，如何有效结合ChemBERTa嵌入和RDKit描述符，以提高模型的可解释性和预测精度。此外，模型在处理高维数据时，需要进行严格的网格搜索和十折交叉验证，以确保模型的鲁棒性和泛化能力。这些挑战不仅涉及技术层面的优化，还要求在化学信息学领域中实现可持续溶剂设计的创新方法。

常用场景

经典使用场景

在化学信息学领域，DESs_density_data.csv 和 DESs_melting_point_data.csv 数据集的经典使用场景主要集中在预测深共晶溶剂（DESs）的密度和熔点。通过结合ChemBERTa模型提取的高维嵌入和RDKit的物理化学描述符，研究人员能够捕捉分子结构的复杂特征，从而提高预测模型的准确性。这种集成方法不仅增强了模型的解释性，还显著提升了对DESs关键性质的预测能力。

实际应用

在实际应用中，DESs_density_data.csv 和 DESs_melting_point_data.csv 数据集为化学工业和材料科学领域提供了宝贵的工具。通过精确预测DESs的密度和熔点，研究人员能够优化溶剂选择，减少实验成本和时间。此外，这些预测模型还可用于开发新型环保溶剂，推动绿色化学的发展，具有广泛的应用前景。

衍生相关工作

基于DESs_density_data.csv 和 DESs_melting_point_data.csv 数据集，研究人员进一步开发了多种集成模型，如ExtraTreesRegressor和XGBRegressor，以优化预测性能。这些模型不仅在学术研究中得到了广泛应用，还激发了更多关于深度学习在化学信息学中应用的探索。相关工作还包括特征重要性分析和相关性热图生成，进一步提升了模型的解释性和实用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集