five

BH HTE Curated Dataset

收藏
github2025-11-18 更新2025-11-21 收录
下载链接:
https://github.com/schwallergroup/bh-hte-ood
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个统一整理的Buchwald-Hartwig高通量实验数据集,包含新生成的JnJ BH HTE数据以及整理的开源BH/Pd催化C-N HTE数据集。数据集包含反应身份信息(芳基和胺SMILES、试剂SMILES、产率/响应信息和二元成功标签)、元数据(反应来源)以及特征/聚类信息(DRFP/物理化学特征、聚类分配)。所有化学实体都经过内部工具整理,具有一致的SMILES和名称表示。

This is a uniformly curated Buchwald-Hartwig high-throughput experiment (HTE) dataset, encompassing both newly generated JnJ BH HTE data and the curated open-source BH/Pd-catalyzed C-N coupling HTE datasets. The dataset includes reaction identity information (SMILES of aryl and amine substrates, reagent SMILES, yield/response data, and binary success labels), metadata (reaction sources), as well as feature and cluster information (DRFP/physicochemical features, cluster assignments). All chemical entities have been curated via internal tools, with uniform SMILES and standardized nomenclature representations.
创建时间:
2025-10-31
原始信息汇总

数据集概述

基本描述

该数据集为统一整理的Buchwald-Hartwig(BH)高通量实验(HTE)数据集,包含新生成的JnJ BH HTE数据和经过整理的开源BH/Pd催化C–N HTE数据集。

数据集内容

主要数据文件

  • 主数据集文件data/BH_HTE_Curated_Dataset_v2025-11.csv
  • Pickle版本:由于文件大小,托管在 https://zenodo.org/records/17634928
  • 数据集摘要文件data/dataset_summary.csv

数据特征

  • 反应标识:芳基和胺SMILES、试剂SMILES(催化剂、溶剂、碱基)、产率/响应信息和二元成功标签
  • 元数据:反应来源(文献数据集名称或内部JnJ实验)
  • 特征/聚类:DRFP/物理化学特征列、聚类分配列(iteration_0 cluster, iteration_1 cluster等)

研究目的

  • 评估不同数据源之间的分布外(OOD)预测性能
  • 分析化合物-反应多样性评分(CRDS)与OOD性能的关系
  • 研究添加JnJ HTE数据集对模型性能的影响

实验笔记本

1. CRDS笔记本

目标:量化CRDS与OOD性能的相关性,并与原始数据集大小进行比较

2. 数据源基准测试笔记本

目标:在单个数据源上训练多个ML模型,并在来自剩余数据的OOD聚类上进行测试

3. JnJ25数据影响笔记本

目标:量化在训练中包含新JnJ工业HTE数据集对OOD性能和校准的影响

模型支持

支持随机森林、梯度提升、逻辑回归、多层感知器、K近邻、高斯朴素贝叶斯等机器学习模型

引用信息

主要引用: Neves, P.; Hao, B.; Aikonen, S.; Diccianni, J. B.; Wegner, J. K.; Schwaller, P.; Strambeanu, I. I. "Robust Out-of-Distribution Prediction of Buchwald–Hartwig Reactions." ChemRxiv (2025), DOI: 10.26434/chemrxiv-2025-xcr46

集成数据源

该整理数据集整合了多个开源HTE BH/反应性数据集,包括:

  • Santanilla等(Science, 2015)
  • Ahneman等(Science, 2018)
  • Rinehart等(Science, 2023)
  • Fitzner等(Chem. Sci., 2020)
  • Saebi等(Chem. Sci., 2023)
  • King-Smith等(Nat. Chem., 2024)
  • Ha等(J. Am. Chem. Soc., 2025)
搜集汇总
数据集介绍
main_image_url
构建方式
在有机合成化学领域,Buchwald-Hartwig反应作为构建碳氮键的重要方法,其数据集的构建采用了系统化整合策略。该数据集融合了强生公司新开发的工业级高通量实验数据与六项权威开源数据集,通过内部标准化工具对每个化学实体的SMILES表示和命名进行统一处理。构建过程中特别注重不同数据源之间的泛化能力,采用基于DRFP和物理化学特征的聚类方法划分训练集与测试集,并严格排除训练集中出现的底物在测试集中的重复,确保分布外预测评估的严谨性。
特点
该数据集的核心特征体现在其多维度的反应表征体系,不仅包含芳基化合物与胺类底物的SMILES结构信息,还完整记录了催化剂、溶剂和碱等试剂的化学特征。数据集通过独特的元数据标注体系,清晰标识每个反应的数据来源,并提供了基于迭代聚类的分布划分方案。特别值得注意的是,数据集引入了化合物-反应多样性评分指标,该指标通过量化底物对与试剂组合的多样性,为评估模型泛化能力提供了创新性的度量标准。
使用方法
针对机器学习在合成化学中的应用需求,该数据集配备了完整的基准测试框架。研究人员可通过三个核心笔记本实现不同层面的分析:数据源基准测试笔记本支持单数据源训练与分布外聚类测试的对比评估;CRDS分析笔记本可验证多样性指标与模型泛化能力的相关性;强生数据影响笔记本则专门用于量化工业数据集对模型性能的提升效果。使用前需配置Python 3.8环境及指定版本的scikit-learn工具包,通过特征表示选择与随机种子设置即可复现论文中的关键结论。
背景与挑战
背景概述
Buchwald-Hartwig胺化反应作为构建碳氮键的关键方法,在药物合成与材料科学领域具有重要地位。2025年由Neves等研究者发布的BH HTE精选数据集,整合了强生公司工业级高通量实验数据与多源公开数据集,通过统一SMILES表征与反应聚类技术,构建了覆盖广泛反应空间的标准化资源。该数据集聚焦于机器学习模型在分布外预测中的泛化能力研究,为催化反应性能预测提供了跨领域验证平台,显著推进了计算机辅助合成规划的发展进程。
当前挑战
该数据集致力于解决布赫瓦尔德-哈特维格反应产率预测中的分布外泛化难题,其核心挑战在于反应空间的化学多样性表征与跨数据源一致性处理。构建过程中需克服多重障碍:原始数据来源异构导致的反应物命名差异,要求开发统一的化学结构标准化流程;高通量实验数据固有的噪声与缺失值,需建立严格的质量控制体系;为保障分布外评估的有效性,必须设计能严格分离训练集与测试集化学空间的聚类策略,同时平衡工业数据保密性与学术研究开放性之间的张力。
常用场景
经典使用场景
在有机合成化学领域,BH HTE精选数据集为布赫瓦尔德-哈特维希交叉偶联反应的高通量实验研究提供了标准化平台。该数据集通过整合工业界与开源数据,构建了包含芳基卤化物、胺类底物及催化剂体系的统一反应空间,其经典应用体现在机器学习模型对反应成功率的预测任务上。研究人员利用该数据集训练随机森林、梯度提升等算法,通过DRFP分子指纹表征反应物与试剂的化学空间,系统评估模型在分布外样本上的泛化能力。
衍生相关工作
基于该数据集衍生的经典研究包括化合物-反应多样性评分系统的建立,该系统成为评估化学反应数据集质量的新标准。后续研究通过该数据集验证了多种机器学习架构在合成化学中的适用性,如梯度提升模型在预测布赫瓦尔德-哈特维希反应产率方面的卓越表现。这些工作共同推动了化学信息学从描述性分析向预测性建模的范式转变,为自动化合成路线规划奠定了理论基础。
数据集最近研究
最新研究方向
在有机合成化学领域,Buchwald-Hartwig偶联反应作为构建碳氮键的核心方法,其高通量实验数据的整合与机器学习应用正推动反应预测范式的革新。当前研究聚焦于分布外预测的鲁棒性评估,通过构建融合工业与开源数据的统一数据集,系统探索化合物-反应多样性评分与模型泛化能力的关联机制。前沿工作揭示了数据多样性相较于单纯规模扩张对预测性能的关键影响,同时通过域外聚类划分与基材新颖性强制策略,建立了跨数据源泛化能力的量化评估体系。这一研究方向不仅解决了实际合成中未知反应空间的预测挑战,更为药物研发领域的反应条件优化提供了可解释的机器学习框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作