m-CHA
收藏arXiv2025-02-27 更新2025-03-04 收录
下载链接:
http://arxiv.org/abs/2502.19976v1
下载链接
链接失效反馈官方服务:
资源简介:
m-CHA数据集是由印度理工学院孟买分校的研究团队手工收集的,包含了866个催化meta-C(sp2)-H键激活反应,这些反应源自26篇同行评审的论文。数据集中的反应在底物、偶联伙伴、催化剂、配体、氧化剂、碱和溶剂等方面有所不同。该数据集通过将反应物分子的SMILES字符串连接起来,形成一个适合机器学习模型构建的复合表示。该数据集的应用领域在于优化化学反应的收益率,解决化学反应中的催化剂、反应条件、底物选择等问题。
The m-CHA dataset was manually collected by a research team from the Indian Institute of Technology Bombay, containing 866 catalytic meta-C(sp²)-H bond activation reactions sourced from 26 peer-reviewed papers. The reactions in this dataset vary across substrates, coupling partners, catalysts, ligands, oxidants, bases, solvents and other relevant factors. By concatenating the SMILES strings of the reactant molecules, this dataset constructs a composite representation suitable for the development of machine learning models. The applications of this dataset focus on optimizing chemical reaction yields and addressing challenges such as catalyst selection, reaction condition optimization and substrate selection in chemical reactions.
提供机构:
印度理工学院孟买分校化学系,印度理工学院孟买分校机器智能与数据科学中心
创建时间:
2025-02-27
搜集汇总
数据集介绍

构建方式
m-CHA数据集是通过从文献中手动收集并整理超过860个精心挑选的化学反应而构建的。这些反应涵盖了跨越十多年的文献,属于催化meta-C(sp2)−H键活化反应的家族,具有很高的当代重要性。为了解决数据集大小、产率偏向高值以及数据分布稀疏的特点,研究者开发了一种新的(i)时间和资源高效的预训练策略,用于下游迁移学习;(ii)CFR(分类后回归)模型,该模型在产率预测方面提供了最先进的结果,超过了传统的直接回归(DR)方法。
使用方法
m-CHA数据集可以用于训练和评估机器学习模型,特别是那些用于预测化学反应产率的模型。数据集中的每个反应样本都包含参与反应的各个分子的SMILES表示以及相应的产率值。研究者提出了一个新的策略,称为CFR(分类后回归),用于改进产率预测。该模型首先将数据集分为多个类别,然后为每个类别分别建立回归模型。这种方法可以更好地处理数据集中的不均衡性和稀疏性,从而提高预测的准确性和鲁棒性。
背景与挑战
背景概述
m-CHA数据集是近年来在化学反应产率预测领域的一个重要突破,该数据集由印度理工学院孟买分校的化学系和机器智能与数据科学中心的研究人员Supratim Ghosh、Nupur Jain和Raghavan B. Sunoj共同创建。该数据集收集了超过860个手动校对的反应,涵盖过去十年间的文献,这些反应属于催化meta-C(sp2)−H键活化反应家族,具有重要的当代意义。m-CHA数据集的创建旨在解决化学反应数据集中普遍存在的数据不平衡和稀疏性问题。研究团队开发了一种新的预训练策略,该策略在资源利用和时间上都非常高效,并设计了一种新的CFR(分类后回归)模型,该模型在产率预测方面取得了最先进的成果,超越了传统的直接回归方法。m-CHA数据集及其相关模型的发展,为化学催化和机器学习领域的结合提供了新的思路,并在化学反应产率预测方面产生了深远的影响。
当前挑战
m-CHA数据集及其相关模型在解决化学反应产率预测问题方面面临诸多挑战。首先,现有的化学反应数据集普遍存在数据不平衡和稀疏性问题,这给机器学习模型的训练和预测带来了困难。其次,构建高效且资源利用合理的预训练策略是一个挑战,需要找到合适的预训练数据集,并在保证模型性能的前提下降低预训练时间。此外,针对化学反应数据集的特点,如何提高模型的泛化能力也是一个重要的挑战。针对这些问题,m-CHA数据集的研究团队提出了一种新的预训练策略和CFR模型,有效地解决了数据不平衡和稀疏性问题,并在提高模型泛化能力方面取得了显著成果。
常用场景
经典使用场景
m-CHA数据集是用于化学合成中的元位C(sp2)−H键活化反应的产率预测。该数据集包含超过860个手动整理的反应,跨越了十年以上的文献。m-CHA数据集的特点是数据稀疏和分布倾斜,即高产量反应的数据量远多于低产量反应。为了应对这些挑战,研究团队开发了一种新的预训练策略,即基于子结构的SSP1数据集,该数据集包含0.11百万个分子,通过从PubChem数据库中提取与目标化合物相似的子结构。此外,研究团队还提出了一种新的CFR(分类后回归)模型,该模型首先将数据分类为高产量和低产量,然后对每个类别分别进行回归预测。在产率预测方面,CFR模型取得了显著的成果,超越了传统的直接回归方法。
解决学术问题
m-CHA数据集解决了化学合成中元位C(sp2)−H键活化反应产率预测的难题。传统的预测方法通常基于化学直觉和实验探索,效率低下且成本高昂。m-CHA数据集的应用使得利用机器学习算法进行产率预测成为可能,从而为化学合成提供了更快、更可持续的反应发现工作流程。此外,m-CHA数据集还解决了传统预测方法中存在的样本不均衡和数据稀疏的问题,使得预测模型能够更好地适应真实世界的反应数据。
实际应用
m-CHA数据集在实际应用中具有重要的价值。该数据集可以用于优化化学合成反应的条件,包括底物、反应物、催化剂、配体、氧化剂、碱和溶剂的选择。通过预测产率,研究人员可以更快地筛选出最优的反应条件,从而提高化学合成的效率和产量。此外,m-CHA数据集还可以用于探索未测试的反应空间,为发现新的反应条件和催化剂提供线索。
数据集最近研究
最新研究方向
在化学领域,特别是催化反应的产率预测方面,机器学习(ML)模型的应用日益重要。m-CHA数据集的引入为研究过渡金属催化的间位C(sp2)−H键活化反应提供了新的视角。该数据集克服了传统反应数据集中不平衡和稀疏的挑战,通过自然语言处理模型(如ULMFiT)对化学反应进行化学语言表示,实现了对产率的精准预测。m-CHA数据集的研究推动了预训练策略的发展,例如基于子结构的预训练方法,以及分类回归(CFR)模型的构建,这些模型在产率预测方面展现出超越传统直接回归(DR)方法的优势。此外,CFR模型在预测产率方面的高泛化能力也得到了证实,对之前基准反应数据集的预测准确度有显著提升。m-CHA数据集的研究成果为化学催化反应的产率预测提供了新的研究思路和方法,对推动该领域的发展具有重要意义。
相关研究论文
- 1Efficient Machine Learning Approach for Yield Prediction in Chemical Reactions印度理工学院孟买分校化学系,印度理工学院孟买分校机器智能与数据科学中心 · 2025年
以上内容由遇见数据集搜集并总结生成



