completeRXN-benchmark-26/completeRXN
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/completeRXN-benchmark-26/completeRXN
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- other
language:
- en
tags:
- chemistry
- reactions
- SMILES
- reaction-completion
- benchmarking
- USPTO
pretty_name: CompleteRxn Benchmark
size_categories:
- 100K<n<1M
configs:
- config_name: default
data_files:
- split: train
path: benchmark_final.csv
dataset_info:
features:
- name: Unique_identifier
dtype: string
- name: OriginalReaction
dtype: string
- name: InputReaction
dtype: string
- name: TargetReaction
dtype: string
- name: TargetReaction_with_stereo
dtype: string
- name: has_unresolved_stereo
dtype: bool
- name: CanonicalOriginalReaction
dtype: string
- name: CanonicalReaction
dtype: string
- name: MissingNrAtoms
dtype: int64
- name: MissingNrCarbons
dtype: int64
- name: MissingMw
dtype: float64
- name: IsBalanced
dtype: bool
- name: Balance
dtype: string
- name: rxn_class
dtype: string
- name: 1kTPLLabel
dtype: string
- name: FlowER_ID
dtype: string
- name: PatentNumber
dtype: string
- name: ParagraphNum
dtype: string
- name: Year
dtype: int64
---
# CompleteRxn Benchmark
**206,423 reactions** for the task of **reaction completion**: given an atom-unbalanced
USPTO reaction SMILES, predict the missing molecules to produce a balanced equation.
Ground-truth targets come from [FlowER](https://doi.org/10.6084/m9.figshare.28359407)
mechanistic steps mapped to USPTO records. Three split types (random, group OOD, extreme
OOD) with 5 repetitions each test generalization across structural novelty levels.
**Code:** [r/CompleteRxn-Benchmarking-2280](https://anonymous.4open.science/r/CompletRxn-Benchmarking-2280/)
## Files
```
benchmark_final.csv ← 206,423 reactions + metadata (join key: Unique_identifier)
benchmark_columns.json ← full column descriptions
splits/
random_splits/ ← split column: random_split (0=train, 1=valid, 2=test)
group_splits/ ← split column: group_split
extreme_ood_splits/ ← split column: extreme_ood_split
raw/ ← source files for pipeline reproduction (see below)
master_dataset_mapped.csv
flower_full_single_reactions_with_main_products.tsv
```
## Columns in `benchmark_final.csv`
| Column | Type | Description |
|---|---|---|
| `Unique_identifier` | string | Row ID (e.g. `USPTO_US03930836_0`); join key for split files |
| `OriginalReaction` | string | Original USPTO reaction SMILES before curation |
| `InputReaction` | string | **Model input** — atom-imbalanced SMILES (reactants+reagents >> incomplete product) |
| `TargetReaction` | string | **Ground truth** — atom- and charge-balanced SMILES from FlowER |
| `TargetReaction_with_stereo` | string | Target with stereo transferred from USPTO; null if unresolvable |
| `has_unresolved_stereo` | bool | True if stereocentres could not be resolved |
| `CanonicalOriginalReaction` | string | Canonicalized original USPTO reaction, no atom mapping |
| `CanonicalReaction` | string | Canonicalized reaction with reagents identified from atom mapping |
| `MissingNrAtoms` | int | Heavy atoms missing from the product side (primary difficulty axis) |
| `MissingNrCarbons` | int | Carbon atoms missing from the product side |
| `MissingMw` | float | Molecular weight of the missing fragment |
| `IsBalanced` | bool | True if already atom-balanced before curation |
| `Balance` | string | Type and count of missing atoms |
| `rxn_class` | string | USPTO reaction class label |
| `1kTPLLabel` | string | Top-1000 template label (null if unmatched) |
| `FlowER_ID` | string | Linked FlowER mechanistic reaction ID |
| `PatentNumber` | string | USPTO patent number |
| `ParagraphNum` | string | Paragraph number within the patent |
| `Year` | int | Patent filing year |
## Benchmark Task & Metric
Given `InputReaction`, predict the missing molecules such that the completed reaction is
atom- and charge-balanced. Primary metric: **Equivalence match** — a hierarchy
of SMILES normalisation steps (proton shuffling, ion dissociation, spectator
cancellation, artefact rewrites) that determines chemical correctness without penalising
equivalent representations. See `utils/metrics.py` in the code repository ([r/CompleteRxn-Benchmarking-2280](https://anonymous.4open.science/r/CompletRxn-Benchmarking-2280/)).
## Reproducing the Dataset
Download the source files from this repo's `raw/` folder and place them at
`data/Template_curated/USPTO_FlowER_raw/` in the code repository ([r/CompleteRxn-Benchmarking-2280](https://anonymous.4open.science/r/CompletRxn-Benchmarking-2280/)), then run
`bash data/Template_curated/run_data_processing.sh`. See `data/Template_curated/README.md`
for full details.
## Source Data
`master_dataset_mapped.csv` aligns five USPTO dataset variants via RDKit canonicalization:
| Dataset | Reference | Download |
|---|---|---|
| USPTO Full (grants only) | Lowe (2017) | [figshare](https://doi.org/10.6084/m9.figshare.5104873) |
| USPTO 50k (2015) | Schneider et al., *JCIM* 2015 | [rxn4chemistry/rxnfp](https://github.com/rxn4chemistry/rxnfp/blob/master/data/schneider50k.tsv) |
| USPTO 50k (2016) | Schneider et al., *JCIM* 2016 | [ACS SI](https://pubs.acs.org/doi/suppl/10.1021/acs.jcim.6b00564/suppl_file/ci6b00564_si_002.zip) |
| USPTO STEREO | Schwaller et al., *Chem. Sci.* 2018 | [IBM Box](https://ibm.ent.box.com/v/ReactionSeq2SeqDataset) |
| USPTO 1k TPL | Schwaller et al., *Nat. Mach. Intell.* 2021 | [IBM Box](https://ibm.ent.box.com/v/MappingChemicalReactions/folder/124192222443) |
`flower_full_single_reactions_with_main_products.tsv` is a preprocessed extract of
FlowER single-step mechanistic reactions: Joung et al., *Nature* 645, 115–123 (2025) —
[figshare](https://doi.org/10.6084/m9.figshare.28359407).
## License
MIT (benchmark code). Underlying USPTO and FlowER data are subject to their respective original licenses.
---
The CompleteRxn Benchmark is a dataset for benchmarking the task of reaction completion, containing 206,423 reactions. The task is to predict the missing molecules to produce a balanced equation given an atom-unbalanced USPTO reaction SMILES. The dataset provides three split types (random, group OOD, extreme OOD) with 5 repetitions each to test generalization across structural novelty levels. The features of the dataset include unique identifiers, original reaction SMILES, input reaction SMILES, target reaction SMILES, etc. The dataset sources include data from USPTO and FlowER, and provides detailed column descriptions and task metrics.
提供机构:
completeRXN-benchmark-26
搜集汇总
数据集介绍

构建方式
completeRXN基准数据集基于USPTO数据库中的206,423条化学反应记录,通过精心设计的流程构建。从USPTO多版本变体(包括USPTO Full、USPTO 50k、USPTO STEREO及USPTO 1k TPL)出发,借助RDKit进行标准化对齐,形成主数据集。随后,从FlowER数据库中提取原子与电荷平衡的反应作为真实目标,通过移除产物侧部分分子,人为制造出原子不均衡的反应SMILES作为模型输入,从而生成一个专门用于反应补全任务的基准数据集。数据集的划分涵盖随机、分组分布外及极端分布外三种类型,每种类型包含五次重复,以全面评估模型在不同结构新颖性水平上的泛化能力。
特点
该数据集的核心特色在于其针对反应补全任务的专门化设计。每个样本包含原始反应、原子不均衡的输入反应及平衡的靶标反应,其中靶标反应还提供了立体化学信息。数据集提供了丰富的元数据,包括缺失原子数、碳数及分子量,这些指标量化了任务难度。独特的等价匹配评估指标,通过多层SMILES归一化(如质子转移、离子解离等),确保化学正确性而不惩罚等价表示。此外,数据集提供了三种划分策略,能够系统性地测试模型在随机、结构分组外及极端分布外场景下的表现,为反应补全任务的基准测试提供了坚实框架。
使用方法
使用completeRXN数据集时,用户应加载benchmark_final.csv文件及其对应的划分文件。模型输入为InputReaction列中的原子不均衡SMILES,目标为TargetReaction列中的平衡SMILES。评估采用等价匹配指标,需调用代码仓库中utils/metrics.py中的标准化函数来比较预测与真实反应。用户可依据研究需求选择随机、分组或极端分布外划分,并通过Unique_identifier键与划分文件关联。数据集的完整复现可通过下载raw文件夹中的源文件并运行提供的处理脚本实现,确保结果的可重复性。
背景与挑战
背景概述
CompleteRxn基准数据集于2025年由研究团队创建,旨在应对有机化学反应中原子不平衡这一长期存在的挑战。该数据集整合了来自美国专利商标局(USPTO)的206,423条反应记录,并借助FlowER数据集的机理步映射,为反应补全任务提供了高质量的真实标注。数据集涵盖了随机划分、组外分布以及极端外分布三种分割类型,每种包含五次重复,以严格评估模型在不同结构新颖性水平上的泛化能力。作为首个专门用于反应补全的标准化基准,CompleteRxn填补了化学信息学领域中该任务缺乏系统评测平台的空白,有望推动机器学习方法在有机合成设计中的实际应用。
当前挑战
CompleteRxn数据集所解决的核心领域问题是反应补全,即从原子不平衡的反应SMILES中预测缺失分子以得到平衡方程,这与传统的产物预测或反应预测任务既有联系又有本质区别。在数据集构建过程中,主要挑战包括:如何从专利文本中准确提取和标准化反应信息,以及如何将FlowER的机理步映射到USPTO记录上以获得可靠的平衡反应目标;同时,对反应SMILES的标准化处理,如质子转移、离子解离和旁观物种消除等,也需要精细设计以保证化学正确性而不损失等价表示。此外,针对不同结构新颖性水平的三类分割策略,要求模型能够应对训练集与测试集之间可能存在的显著分布偏移,从而考验算法的泛化能力和鲁棒性。
常用场景
经典使用场景
CompleteRXN基准数据集专为化学反应补全任务设计,其核心场景是基于非平衡的USPTO反应SMILES表达式,预测缺失的分子片段以生成原子和电荷守恒的完整反应方程。该数据集提供了超过20万条经过精心筛选和标注的反应实例,涵盖三种不同难度的划分方式(随机划分、分组外推和极端外推),使研究者能够在结构新颖性各异的情境下全面评估模型性能。这一设置尤其适合验证和提升神经网络在逆合成分析、反应预测和分子图生成等化学信息学核心任务中的泛化能力。
实际应用
在实际应用中,CompleteRXN可深度赋能自动化合成规划系统和智慧实验室平台。当机器人化学家或逆合成软件因数据噪声或记录缺失而获得不完整的反应式时,基于该数据集训练的模型能迅速补全缺失的底物或产物,确保反应平衡校验的可靠性。此外,在专利文献的智能化解析、化学反应数据库的清洗与标准化,以及药物合成路线的快速设计验证中,该数据集训练的模型可大幅减少人工校验成本,提升化学信息处理流程的自动化和精确度。
衍生相关工作
CompleteRXN的发布催生了多项拓展性研究工作。基于其基准框架,研究者开发了等级化SMILES归一化匹配度量方法,区分质子重排、离子解离和旁观基团取消等化学等价表达,为反应正确性评估提供了更精细的指标。该数据集也可作为迁移学习的上游资源,预训练后的模型可微调至低资源反应模板预测或区域选择性分析等下游任务。此外,其极端的OOD划分策略激励了面向分子结构新颖性的鲁棒建模研究,推动了图注意力网络和Transformer架构在化学推理中的适应性改进。
以上内容由遇见数据集搜集并总结生成



