lukaskim/MappedCRD
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/lukaskim/MappedCRD
下载链接
链接失效反馈官方服务:
资源简介:
MappedCRD数据集是化学反应数据库(CRD)的一个处理版本,提供了原子映射的反应SMILES和虚过渡态(ITS)图编码,用于大规模化学信息学和机器学习应用。数据集包含三个子集:rxnmapper(包含1,446,478个通过RXNMapper映射的完整反应SMILES)、its(包含1,405,109个通过graphies和SynKit编码为ITS图的反应)和its-nomod(包含1,405,109个不带电荷和氢修饰符的ITS图)。这些子集分别提供了不同的化学反应表示形式,适用于不同的研究需求。
The MappedCRD dataset is a processed version of the Chemical Reactions Database (CRD), providing atom-mapped reaction SMILES and imaginary transition state (ITS) graph encodings for large-scale cheminformatics and machine-learning use. The dataset includes three subsets: rxnmapper (containing 1,446,478 full reaction SMILES mapped with RXNMapper), its (containing 1,405,109 reactions encoded as ITS graphs using graphies and SynKit), and its-nomod (containing 1,405,109 ITS graphies without charge and hydrogen modifiers). These subsets offer different representations of chemical reactions, catering to various research needs.
提供机构:
lukaskim
搜集汇总
数据集介绍

构建方式
MappedCRD数据集是在Chemical Reactions Database (CRD)基础上经过深度加工而来的衍生资源。CRD本身是一组经过精心整理的化学反应集合,在此基础上,研究者运用RXNMapper工具对原始无映射的反应SMILES进行原子映射,获得高置信度的映射结果。进一步地,针对成功映射的反应,借助graphies与SynKit工具将其编码为虚过渡态(ITS)图表示,形成可表征反应物与产物键合变化的单一分子图。数据集共计包含三个子集:rxnmapper(约144万条,含映射反应SMILES及置信度分数)、its(约140万条,含ITS图编码字符串)以及its-nomod(同为约140万条,去除了电荷与氢修饰子)。全部数据以Parquet格式存储,支持高效分块加载。
特点
该数据集最显著的特点在于其融合了两种互补的化学反应表示范式。映射原子反应SMILES不仅保留了完整的反应信息,还明确了原子间的对应关系,便于进行反应模板提取与机理分析。ITS图表示则突破了传统SMILES的序列化局限,将反应视作单一分子图中的键级变化,天然适合图神经网络等结构化的机器学习模型。此外,its-nomod子集提供了去除电荷与氢修饰的轻量版本,降低了计算复杂度,适用于对电性不敏感的任务。三个子集间保持相互关联,且均基于开源工具生成,保证了可复现性与扩展性。
使用方法
使用者可以通过HuggingFace Datasets库便捷地加载该数据集。具体地,调用load_dataset函数时需指定数据集名称为'lukasmki/MappedCRD',并通过name参数选择所需子集:'rxnmapper'、'its'或'its-nomod',均使用split='train'获取全部数据。加载后,每条样本以字典形式呈现,分别包含原始反应SMILES、映射反应SMILES、置信度分数(仅rxnmapper子集)或ITS图编码字符串(仅its与its-nomod子集)。数据格式为Parquet,支持分批次流式读取,适合大规模实验场景。此外,开发者可基于映射SMILES进一步应用RXNMapper重新映射,或利用ITS编码结合PyTorch Geometric等库构建图学习管道。
背景与挑战
背景概述
MappedCRD数据集由lukasmki团队创建于2025年,基于Rik van der Lingen发布的Chemical Reactions Database(CRD)精心加工而成,专注于为化学信息学与机器学习提供大规模、高质量的反应数据。核心研究问题在于如何将有机化学反应以原子映射和虚过渡态图的形式标准化编码,以支撑反应预测、逆向合成等计算化学任务。通过整合RXNMapper的原子映射技术与graphies/SynKit的ITS图编码,该数据集将原始反应SMILES转化为结构化、可学习的表示形式,显著推动了反应信息学的发展,并成为该领域重要的基准资源。
当前挑战
该数据集面临的核心领域挑战在于化学反应自动映射与图表示的不确定性:原子映射精度受限于反应机理的复杂性和RXNMapper的置信度阈值,部分反应因映射歧义或解离失败被剔除,削弱了数据的完备性。构建过程中,ITS图编码需要统一处理电荷、氢原子修饰等变量,以确保图结构在符号化与正则化中的一致性,但最终仅140万成功案例反映出大规模自动化处理时节点关联易出错、反应多样性覆盖不足等困难,制约了模型对稀有或新型反应的泛化能力。
常用场景
经典使用场景
在化学信息学与机器学习交叉融合的浪潮中,MappedCRD数据集为反应预测与逆合成分析提供了不可或缺的数据基石。其经典使用场景在于利用原子映射的反应SMILES(rxnmapper子集)训练序列模型,以学习反应物与产物之间原子级别的对应关系;同时,借助虚构过渡态(ITS)图编码(its与its-nomod子集),使图神经网络能够直接对反应过程中化学键的断裂与形成进行端到端建模,从而实现对化学反应路径与产物的精准预测。
衍生相关工作
围绕MappedCRD数据集,学术界已衍生出多项具有影响力的经典工作。其中,RXNMapper作为本数据集中原子映射的生成工具,其提出的注意力对齐机制成为反应SMILES映射领域的标杆方法;而graphies工具链则开创性地将反应拓扑编码为ITS图结构,直接催生了基于图神经网络的反应分类与产率预测等研究方向。此外,该数据集还支撑了分子生成模型中的反应约束学习、多步合成路线规划以及不确定性量化等前沿课题,成为连接实验化学与计算建模的关键桥梁。
数据集最近研究
最新研究方向
MappedCRD数据集聚焦于化学反应数据的原子映射与虚过渡态图编码,为化学信息学与机器学习提供了大规模、标准化的训练资源。当前前沿研究主要围绕反应预测、逆合成分析及计算化学的深度模型优化展开,该数据集支持的RXNMapper映射和ITS图结构,显著提升了反应机制建模的精度与可解释性。在热点事件如自动化合成路径发现与AI驱动的化学反应设计浪潮中,MappedCRD通过提供逾百万条高质量映射反应,推动了从分子图学习到反应条件预测的跨学科突破,其开源许可与结构化的子集配置(如rxnmapper和its)为可复现研究奠定了基础,对加速药物分子与有机材料领域的智能发现具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



