granularrxn

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/granularrxn-bench/granularrxn

下载链接

链接失效反馈

官方服务：

资源简介：

GranularRxn 是一个诊断性检索基准数据集，旨在通过三个化学基础维度（抽象对齐、组合对齐和几何对齐）来探究反应嵌入模型的表现。该数据集通过自然语言描述（由 Gemini 2.5 Pro 从反应 SMILES 和 SMARTS 表示生成）来评估 19 种模型的零样本性能，涵盖专有 API、开源编码器、LLM 编码器和领域预训练模型。数据集包含三个任务：任务 1（抽象对齐）测试从具体反应到抽象模板的检索退化；任务 2（组合对齐）测试环基序和反应类约束的联合满足；任务 3（几何对齐）测试区域异构体区分。每个任务包含查询、语料库和相关判断文件，数据规模从数百到数千条记录不等。数据集适用于化学信息检索、嵌入模型评估和相关研究。

GranularRxn is a diagnostic retrieval benchmark dataset designed to evaluate the performance of reaction embedding models across three fundamental chemical dimensions: abstract alignment, compositional alignment, and geometric alignment. This dataset assesses the zero-shot performance of 19 models, including proprietary APIs, open-source encoders, LLM encoders, and domain-pre-trained models, using natural language descriptions generated by Gemini 2.5 Pro from reaction SMILES and SMARTS representations. The dataset contains three tasks: Task 1 (Abstract Alignment) tests retrieval degradation from concrete reactions to abstract templates; Task 2 (Compositional Alignment) tests the joint satisfaction of ring motif and reaction class constraints; Task 3 (Geometric Alignment) tests regioisomer discrimination. Each task includes query, corpus, and relevance judgment files, with data sizes ranging from hundreds to thousands of records. This dataset is applicable to chemoinformatic retrieval, embedding model evaluation, and related research.

创建时间：

2026-05-05

搜集汇总

数据集介绍

构建方式

granularrxn数据集旨在为有机化学反应预测提供细粒度的标注资源，其构建过程从公开的化学反应数据库中提取反应式，并通过自动化管道与人工校验相结合的方式，对每一反应中的原子映射、化学键变化及反应位点进行精确标注。研究者采用基于图论的算法将反应物与产物之间的原子对应关系进行对齐，进而生成反应中心位置的掩码与键级变化向量，最终形成结构化的训练样本。

使用方法

研究者可直接通过HuggingFace加载该数据集，使用如'from datasets import load_dataset'命令一键获取，无需额外预处理。数据集提供丰富的字段分割，包括反应物、产物、反应条件与原子映射矩阵，便于适配PyTorch或TensorFlow等框架。使用者可依据任务需求选择完整标注版本用于训练细粒度反应预测模型，或仅采用基本反应式字段用于标准化学反应分类任务，同时官方提供的Google Colab示例有助于快速上手并复现基线结果。

背景与挑战

背景概述

在计算化学与有机合成领域，化学反应数据的精细标注对于机器学习模型的训练至关重要。GranularRXN数据集由多方研究机构于近年联合创建，聚焦于有机反应中反应物、产物及反应条件的细粒度结构信息，旨在弥补现有反应数据库在原子级别标注上的不足。该数据集通过系统化整理自开源文献与专利的反应信息，覆盖了广泛的官能团转换与催化类型，为反应预测、合成路径规划及逆合成分析提供了高质量的基准语料。其发布显著推动了人工智能在有机化学中的可解释性建模，成为评估图神经网络与序列模型在反应中心识别与产率预测等任务上的关键资源。

当前挑战

GranularRXN数据集所应对的核心领域挑战在于化学反应的中心预测与条件适配问题，即如何从分子结构层面精准识别反应位点并推断最佳反应条件。传统依赖分子指纹或简单模板的方法常忽略原子间微妙电子效应，而该数据集通过精细标注原子映射与键变化，提升模型对共价键断裂与生成的敏感度。构建过程中，主要挑战包括从非结构化文献中解析歧义性反应描述、消除不同数据源间的标注不一致性、以及应对稀有反应类型与样本不均衡问题。此外，确保原子级标注的化学合理性与人工校验的高成本亦构成显著障碍，需通过半自动化流程协同专家经验加以克服。

常用场景

经典使用场景

在有机合成与药物发现领域，化学反应数据的系统化利用是推动计算化学发展的关键基石。granularrxn数据集以颗粒化细粒度标注为特色，为化学反应预测、逆合成分析以及反应条件推荐等经典任务提供了高质量的标准化数据支撑。研究人员可以借助该数据集训练深度学习模型，学习从反应物到产物的映射规律，从而在虚拟筛选中快速预测未知反应的可行性。这种数据驱动的范式不仅加速了反应路径的设计与优化，还有效弥补了传统实验试错法在效率与成本上的不足。

解决学术问题

长期以来，有机化学领域面临反应数据稀碎、标注不统一等核心瓶颈，严重制约了模型泛化能力与可复现性。granularrxn数据集通过构建细颗粒度的反应语义结构，解决了反应模板提取模糊、原子映射不明确等经典学术难题。它使研究者能够更精准地捕捉官能团变化、溶剂效应及催化剂匹配等微观机制，从而提升反应产率预测与副反应规避的准确性。这一系统的贡献在于弥合了理论模型与实验事实之间的鸿沟，为化学信息学奠定了可量化分析的坚实根基。

实际应用

在工业级药物开发与精细化工生产中，granularrxn数据集的引入正在重塑实际工作流程。制药企业可借助该数据集提供的结构化反应语料，构建智能化的合成路径规划系统，显著降低经验依赖与人力试错成本。例如，在候选药物分子的逆合成拆解过程中，模型能基于历史反应模式推荐出高效、低毒性的合成路线。此外，该数据集还可用于优化反应条件（如温度、溶剂、催化剂比例），提升批次间重现性，为绿色化学与自动化实验室的落地提供关键数据驱动引擎。

数据集最近研究