five

Amide coupling reaction dataset

收藏
github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/isayevlab/amide_reaction_data
下载链接
链接失效反馈
官方服务:
资源简介:
公开可用的信息包括优化的分子3D结构(SDF格式)、分子描述符和反应描述符。此外,还提供了仅在访问Reaxys数据库时可用的反应CSV文件(反应信息和产率)。数据集被分割成多个部分,用于不同的训练和测试目的,如正常反应、不确定产率的反应等。

The publicly available information includes optimized molecular 3D structures (in SDF format), molecular descriptors, and reaction descriptors. Additionally, reaction CSV files (containing reaction information and yields) are provided, which are exclusively accessible through the Reaxys database. The dataset is segmented into various parts for distinct training and testing purposes, such as normal reactions and reactions with uncertain yields.
创建时间:
2023-05-13
原始信息汇总

数据集概述

数据集名称

Amide coupling reaction dataset

数据集内容

  • 公开信息: 包括优化后的分子3D结构(SDF格式)、分子描述符和反应描述符。所有公开信息可在此处下载:链接
  • 仅限Reaxys订阅用户: 包含反应CSV文件(反应信息和产率)。

文件列表

  • 分子相关文件:
    • sdf.tar.gz: 优化后的分子3D结构(需解压缩)
    • morgan1024.csv: 分子Morgan描述符
    • mordred_clean.csv: 分子Mordred描述符
    • AEV00001.zip: 分子AEV描述符(需解压缩)
    • qm_descriptors.tar.gz: 分子QM描述符(需解压缩)
    • sdf_es.pkl: 分子InchiKey到优化3D结构电子能量的映射字典
    • word_idx.txt: 反应上下文到one-hot编码索引的映射
    • v_desps.csv: 反应的立体描述符
  • 反应相关文件:
    • reactions_example.csv: 反应ID和链接
    • reaction_fp_desps.csv: 反应指纹描述符
    • reaction_mordred_desps.csv: 反应Mordred描述符
    • reaction_aev_desps.csv: 反应AEV描述符
    • reaction_qm_desps.csv: 反应QM描述符
    • qm_train_test_splits: QM描述符的训练/测试分割
    • data.py: 数据集加载接口

数据分割

  • normal_ids.pkl: 31,622个amide coupling反应,产率可能包含异常值。
  • train_uncertain_ids.pkl: 2,292个反应,产率不确定。
  • test_uncertain_ids.pkl: 3,000个反应,产率不确定。
  • test_clean_ids.pkl: 187个反应,产率可靠。

数据集接口

  • data.py提供rxn类,用于加载不同描述符的数据集。
  • 接口包括获取反应ID、转换Reaxys ID到ID_2、获取各种描述符等功能。

示例使用

  • 通过rxn类实例化并调用相应方法获取反应信息和描述符。
搜集汇总
数据集介绍
main_image_url
构建方式
在构建酰胺偶联反应数据集时,研究者们整合了公开的优化分子3D结构信息,包括SDF格式的分子结构、分子描述符以及反应描述符。这些数据可通过提供的链接下载。此外,对于拥有Reaxys数据库访问权限的用户,数据集还包含了反应CSV文件,其中详细记录了反应信息和产率。数据集的构建不仅涵盖了分子层面的描述符,如Morgan和Mordred描述符,还包括了反应层面的描述符,如反应指纹和量子力学描述符。通过这种方式,数据集全面捕捉了酰胺偶联反应的复杂性和多样性。
特点
酰胺偶联反应数据集的显著特点在于其多层次的描述符体系和数据来源的多样性。数据集不仅包含了分子层面的3D结构和多种分子描述符,还整合了反应层面的详细信息,如反应条件、产率和反应类型。此外,数据集的分割设计也颇具特色,分为五个互斥的部分,包括用于训练的主数据集、用于验证和测试的不确定性反应数据集,以及用于测试可靠反应产率的数据集。这种分割方式旨在模拟真实世界中反应产率的不确定性,从而提升模型的鲁棒性和泛化能力。
使用方法
使用酰胺偶联反应数据集时,用户可以通过`data.py`脚本轻松加载数据集,并利用`rxn`类获取反应的各种描述符。对于拥有Reaxys数据库访问权限的用户,可以通过`reactions_example.csv`文件获取完整的反应信息。数据集的使用方法直观且灵活,用户可以通过调用`rxn`类中的不同方法,如`get_fp_fast`、`get_mordred_fast`、`get_aev_fast`和`get_qm_fast`,快速获取反应的指纹、Mordred、AEV和量子力学描述符。这种设计使得数据集在机器学习和化学信息学研究中具有广泛的应用潜力。
背景与挑战
背景概述
酰胺偶联反应数据集(Amide coupling reaction dataset)是由主要研究人员或机构创建的,旨在解决酰胺偶联反应中的关键研究问题。该数据集包含了优化后的分子3D结构、分子描述符和反应描述符,这些信息对于理解和预测酰胺偶联反应的效率和产率至关重要。数据集的创建时间可追溯至其首次公开发布,其影响力在于为化学信息学和计算化学领域提供了一个标准化的数据资源,促进了相关研究的发展。
当前挑战
酰胺偶联反应数据集在构建过程中面临多项挑战。首先,数据集的完整性依赖于Reaxys数据库的访问权限,这限制了部分研究者的使用。其次,反应产率的可靠性和不确定性是数据集的主要挑战之一,特别是在处理包含异常值的反应产率时。此外,数据集的描述符多样性虽然丰富,但也增加了数据处理的复杂性,要求研究者具备较高的技术能力来有效利用这些信息。
常用场景
经典使用场景
在有机化学领域,酰胺偶联反应数据集(Amide coupling reaction dataset)被广泛用于研究反应条件对产率的影响。该数据集通过提供优化的分子3D结构、分子描述符和反应描述符,使得研究人员能够深入分析反应机理和优化反应条件。经典的使用场景包括通过机器学习模型预测特定反应条件下的产率,从而指导实验设计,提高反应效率。
实际应用
在实际应用中,酰胺偶联反应数据集被用于工业化学生产中的反应条件优化。通过利用数据集中的分子和反应描述符,化学工程师可以预测不同反应条件下的产率,从而选择最优的反应条件,减少试错成本。此外,该数据集还被用于开发新的催化剂和反应路径,以提高反应效率和减少环境影响,推动绿色化学的发展。
衍生相关工作
基于酰胺偶联反应数据集,许多相关研究工作得以展开。例如,研究人员利用数据集中的分子描述符和反应描述符,开发了多种机器学习模型,用于预测反应产率和优化反应条件。此外,数据集还促进了新型催化剂的设计和评估,以及反应路径的探索。这些衍生工作不仅丰富了有机化学的理论研究,也为实际应用提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作