SynRXN

github2025-10-09 更新2025-10-10 收录

下载链接：

https://github.com/TieuLongPhan/SynRXN

下载链接

链接失效反馈

官方服务：

资源简介：

SynRXN是一个经过整理的、可追溯来源的反应数据集和评估清单集合，专为反应信息学任务（重新平衡、原子-原子映射、反应分类、性质预测和合成/逆合成）的可重现基准测试而设计。它提供标准化的分割、清单文件（RNG种子和分割索引）以及轻量级实用程序来加载和检查数据集，以实现公平、可重现的模型比较。

SynRXN is a curated, source-traceable collection of reaction datasets and evaluation benchmarks, designed specifically for reproducible benchmarking of reaction informatics tasks including reaction rebalancing, atom-atom mapping, reaction classification, property prediction, and synthesis/retrosynthesis. It provides standardized data splits, manifest files (containing RNG seeds and split indices), and lightweight utilities for loading and inspecting the datasets to enable fair and reproducible model comparison.

创建时间：

2025-09-23

原始信息汇总

SynRXN数据集概述

数据集简介

SynRXN是一个经过精心整理、具有溯源追踪功能的反应数据集集合和评估清单，专为反应信息学任务的可重现基准测试而设计。

主要用途

反应再平衡
原子-原子映射
反应分类
性质预测
合成/逆合成分析

核心特性

提供标准化数据分割
包含清单文件（RNG种子和分割索引）
提供轻量级工具来加载和检查数据集
支持公平、可重现的模型比较

数据集内容

性质预测任务数据集

包含11个数据集：

b97xd3
lograte
rgd1
cycloadd
phosphatase
sn2
e2
rad6re
snar
e2sn2

技术实现

支持重复K折交叉验证分割
提供数据分割比例配置（如8:1:1）
支持随机洗牌和随机状态设置
返回pandas DataFrame格式数据

版本信息

DOI：10.5281/zenodo.17297258
Python版本要求：3.11或更高
可通过PyPI安装：https://pypi.org/project/synrxn/

许可证

MIT许可证

搜集汇总

数据集介绍

构建方式

在化学信息学领域，SynRXN数据集通过精心筛选与溯源追踪的方式构建而成，专门用于反应信息学任务的基准测试。该数据集整合了多个反应数据集与评估清单，采用标准化分割策略，并配备随机数生成种子与分割索引等元数据，确保数据构建过程的透明性与可复现性。其构建过程注重数据的完整性与一致性，为后续模型评估提供了可靠的基础。

使用方法

用户可通过Python环境下的synrxn包直接访问数据集，利用DataLoader类按任务类型加载特定数据集，并以pandas.DataFrame格式返回数据。数据集支持灵活的分割操作，例如通过RepeatedKFoldsSplitter实现多次重复的交叉验证分割，确保训练、验证与测试集的独立性。这种模块化设计使得研究人员能够快速集成数据至机器学习流程，同时保持实验的可复现性。

背景与挑战

背景概述

SynRXN数据集作为反应信息学领域的重要基准资源，由Tieu-Long Phan等研究者在欧洲TACsy项目支持下构建，其核心目标在于解决化学反应预测模型的可复现性评估难题。该数据集通过标准化反应任务分类、数据划分策略及追踪机制，为反应重平衡、原子映射、反应分类等关键研究方向提供了系统化验证框架，显著提升了计算化学与合成规划领域的模型可比性。

当前挑战

在反应信息学领域，传统数据集常面临反应表征异构性、实验条件缺失等固有挑战，SynRXN通过构建多任务评估体系直接应对此类问题。数据集构建过程中需攻克反应数据标准化整合、跨数据库标识映射等技术难点，同时确保反应机理的化学合理性验证与知识产权合规性平衡，这些因素共同构成了该基准数据集的核心建设挑战。

常用场景

经典使用场景

在化学反应信息学领域，SynRXN数据集作为标准化基准测试工具，其经典应用场景聚焦于模型性能的横向比较研究。该数据集通过预设的重复交叉验证分割方案，支持反应平衡、原子映射、反应分类及性质预测等核心任务的系统性评估，为机器学习模型在化学动力学与热力学参数预测中的稳定性提供量化依据。

解决学术问题

该数据集有效解决了计算化学中模型泛化能力验证的难题，通过提供可追溯数据来源与标准化评估框架，显著提升了反应预测模型的可复现性。其精心设计的任务体系为反应机理研究、催化剂设计等前沿课题提供了可靠的数据支撑，推动了计算机辅助合成规划领域方法论的统一与进步。

实际应用

在工业实践中，SynRXN被广泛应用于药物合成路线优化与材料开发流程。化学研发团队可借助其标准化测试流程验证反应预测算法的准确性，显著缩短新化合物合成路径的探索周期。该数据集尤其适用于制药企业对其自主开发的计算工具进行基准测试，确保实际生产中的反应预测可靠性。

数据集最近研究