five

rgroup-edit-dataset

收藏
Hugging Face2026-03-18 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/Crisying/rgroup-edit-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
R-Group Edit Dataset 是一个专注于通过自然语言指令编辑Markush结构中R基团的数据集,建立在MolParser-7M数据集之上。该数据集支持光学化学结构识别(OCSR)、Markush结构理解和多模态分子编辑的交叉任务。数据集包含Markush分子(以E-SMILES和图像形式)、自然语言指令(指定要替换的R基团及其取代基)和编辑后的完整分子(以SMILES和图像形式)的配对样本。每个化学编辑操作配有5种不同风格的自然语言指令,以评估模型在不同描述格式下的鲁棒性。数据集包含76,475条记录,涉及15,035种独特的化学操作和4,817个源分子骨架。数据格式包括原始E-SMILES、指令、R基团分配、输出SMILES、分子图像路径以及6种RDKit计算的分子属性。数据集适用于多任务学习,包括SMILES编辑、视觉问答(VQA)和图像编辑等下游任务。
创建时间:
2026-03-08
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作