Reaction SMILES CRD 1.44M dataset
收藏Figshare2025-12-31 更新2026-04-08 收录
下载链接:
https://figshare.com/articles/dataset/Reaction_SMILES_CRD_1_44M_dataset/30978826/1
下载链接
链接失效反馈官方服务:
资源简介:
<pre>Collection of reaction SMILES (reactants, reagents, solvents, products) 1.44M lines total from patent literature (USPTO 1976 - 2025), some EPO data (1,2%) and data from academic literature (2.7% total). Data converted from existing USPTO dataset (1976 - 2016) 1] with data cleaning and USPTO data generated by custom design (2017 - current). Data extraction by OSCAR (semantic) or ChatGPT (LLM), molecule identification by OPSIN and custom synonym list. All SMILES are RDKit-safe with duplicate reactions removed. Please note that the data have been collected in an semi-automated process, the dataset is certainly not without errors.More information on https://kmt.vander-lingen.nl.<br><br>1] Chemical reactions from US patents (1976-Sep2016) https://doi.org/10.6084/m9.figshare.5104873</pre>
本数据集包含总计144万行反应SMILES(Reaction SMILES)数据,涵盖反应物、试剂、溶剂与产物信息,数据来源主要为1976年至2025年的美国专利商标局(United States Patent and Trademark Office,USPTO)专利文献,另包含占比1.2%的欧洲专利局(European Patent Office,EPO)数据,以及总占比2.7%的学术文献数据。数据集基于现有USPTO数据集(1976年—2016年)¹转换而来,并经过数据清洗处理;同时通过自定义设计生成了2017年至今的USPTO相关数据。数据提取通过OSCAR(语义提取工具)或ChatGPT(大语言模型,Large Language Model,LLM)完成,分子识别则依托OPSIN及自定义同义词表实现。所有SMILES均符合RDKit使用规范,且已移除重复反应。请注意,本数据集通过半自动化流程收集,难免存在疏漏与错误。更多详细信息请访问:https://kmt.vander-lingen.nl。
¹ 参考文献:《美国专利中的化学反应(1976年—2016年9月)》,https://doi.org/10.6084/m9.figshare.5104873
提供机构:
van der Lingen, Rik
创建时间:
2025-12-31



