rgroup-edit-dataset
收藏Hugging Face2026-03-18 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/Crisying/rgroup-edit-dataset
下载链接
链接失效反馈官方服务:
资源简介:
R-Group Edit Dataset 是一个专注于通过自然语言指令编辑Markush结构中R基团的数据集,建立在MolParser-7M数据集之上。该数据集支持光学化学结构识别(OCSR)、Markush结构理解和多模态分子编辑的交叉任务。数据集包含Markush分子(以E-SMILES和图像形式)、自然语言指令(指定要替换的R基团及其取代基)和编辑后的完整分子(以SMILES和图像形式)的配对样本。每个化学编辑操作配有5种不同风格的自然语言指令,以评估模型在不同描述格式下的鲁棒性。数据集包含76,475条记录,涉及15,035种独特的化学操作和4,817个源分子骨架。数据格式包括原始E-SMILES、指令、R基团分配、输出SMILES、分子图像路径以及6种RDKit计算的分子属性。数据集适用于多任务学习,包括SMILES编辑、视觉问答(VQA)和图像编辑等下游任务。
创建时间:
2026-03-08



