five

e3fp-mol-instructions-retrosynthesis

收藏
Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-retrosynthesis
下载链接
链接失效反馈
官方服务:
资源简介:
3D-MolT5是一个用于分子-文本建模的数据集,它通过利用分子的离散结构信息来增强文本与分子之间的关联建模。数据集包含四个字段:指令(instruction)、输入(input)、输出(output)和分子指纹(molecule_fp)。其中,分子指纹是由int32类型整数序列组成的。数据集被划分为训练集、验证集和测试集,分别用于模型的训练、验证和测试。
创建时间:
2025-09-01
原始信息汇总

数据集概述

基本信息

  • 数据集名称: e3fp-mol-instructions-retrosynthesis
  • 存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-retrosynthesis
  • 总大小: 173,575,632 字节
  • 下载大小: 16,733,525 字节

数据特征

  • instruction: 字符串类型
  • input: 字符串类型
  • output: 字符串类型
  • molecule_fp: 整数序列类型(int32)

数据划分

  • 训练集: 128,684 个样本,170,916,784 字节
  • 验证集: 1,000 个样本,1,329,424 字节
  • 测试集: 1,000 个样本,1,329,424 字节

相关资源

  • 论文: https://arxiv.org/abs/2406.05797, https://openreview.net/forum?id=eGqQyTAbXC
  • 代码库: https://github.com/QizhiPei/3D-MolT5
  • 作者: Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu
搜集汇总
数据集介绍
main_image_url
构建方式
在计算化学与人工智能交叉领域,e3fp-mol-instructions-retrosynthesis数据集通过系统化整合分子逆合成分析任务构建而成。其核心方法涉及从专业化学数据库中提取反应路径,结合三维分子指纹(E3FP)编码空间结构信息,并利用自然语言指令模板将化学反应转化为文本描述。每个样本包含指令、输入分子SMILES序列、输出产物序列及对应的分子指纹向量,确保了数据在结构与语义层面的双重准确性。
使用方法
使用者可通过加载标准格式的分割数据(训练/验证/测试集)开展逆合成预测任务。输入字段通常为反应物SMILES字符串,结合指令如“生成该分子的逆合成路径”,模型需输出目标产物序列。分子指纹字段可作为辅助特征增强模型对三维构象的理解。该数据集适用于训练化学语言模型,评估分子生成准确性,或作为增强化学推理能力的预训练资源。
背景与挑战
背景概述
有机合成路线设计是药物研发与材料科学的核心环节,传统方法依赖专家经验且效率有限。2024年,由Qizhi Pei等研究人员构建的e3fp-mol-instructions-retrosynthesis数据集,通过融合三维分子指纹与自然语言指令,为逆合成反应预测任务提供了结构化数据支持。该数据集依托3D-MolT5框架开发,旨在解决化学知识与语言模型间的语义鸿沟问题,为自动化合成路线规划奠定了数据基础,显著推动了计算化学与人工智能的交叉研究进展。
当前挑战
逆合成分析需克服反应路径多样性及立体化学精确表征的复杂性,该数据集通过三维分子指纹编码空间结构信息,但需解决指纹离散化导致的空间关系损失问题。构建过程中面临多模态对齐挑战,需协调SMILES序列与三维坐标的语义一致性,同时保证反应模板覆盖的全面性与化学合理性。此外,大规模分子指令数据的质量控制与噪声过滤亦是关键难点。
常用场景
经典使用场景
在计算化学与药物发现领域,e3fp-mol-instructions-retrosynthesis数据集为逆合成分析任务提供了结构化指令数据。该数据集通过分子指纹序列与自然语言指令的配对,支持模型学习从目标分子到前体化合物的逆向分解路径,广泛应用于分子生成与反应预测的监督学习框架。
解决学术问题
该数据集显著解决了逆合成规划中反应路径自动生成的学术难题,通过提供标准化指令-输出对,降低了分子表示与文本语义之间的模态鸿沟。其意义在于推动了数据驱动的合成路线设计研究,为人工智能辅助化学合成提供了可扩展的基准测试平台。
实际应用
实际应用中,该数据集被制药企业用于加速药物分子合成路线开发,通过预测可行反应路径减少实验试错成本。此外,在化学教育领域可用于构建智能逆合成教学工具,帮助学生理解复杂分子拆解逻辑与反应机制。
数据集最近研究
最新研究方向
在计算化学与药物发现领域,e3fp-mol-instructions-retrosynthesis数据集正推动逆合成分析与分子文本建模的深度融合。前沿研究聚焦于整合三维分子结构信息与自然语言指令,通过3D-MolT5等架构实现分子指纹与文本序列的跨模态对齐。这一方向呼应了AI驱动分子设计的热潮,尤其在自动化合成路线规划与可解释性分子生成任务中展现出潜力,为降低药物研发门槛提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作