e3fp-mol-instructions-forward-reaction-prediction
收藏Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-forward-reaction-prediction
下载链接
链接失效反馈官方服务:
资源简介:
3D-MolT5数据集是一个用于分子文本建模的任务,它包含指令(instruction)、输入(input)、输出(output)和分子特征(molecule_fp)等信息。数据集分为训练集、验证集和测试集,分别包含124384、1000和1000个示例。该数据集的目的是利用离散结构信息来提高分子与文本之间的建模效果。
The 3D-MolT5 dataset is tailored for molecular-text modeling tasks. It contains information such as instruction, input, output, and molecular features (molecule_fp). The dataset is divided into training, validation, and test sets, with 124384, 1000, and 1000 examples respectively. The goal of this dataset is to leverage discrete structural information to improve the modeling effectiveness between molecules and text.
创建时间:
2025-09-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: e3fp-mol-instructions-forward-reaction-prediction
- 存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-forward-reaction-prediction
- 总下载大小: 19,316,188 字节
- 总数据集大小: 244,091,572 字节
数据特征
- instruction: 字符串类型,包含指令信息
- input: 字符串类型,包含输入数据
- output: 字符串类型,包含输出数据
- molecule_fp: 序列类型,包含int32序列,表示分子指纹
数据划分
- 训练集 (train): 124,384 个样本,240,321,872 字节
- 验证集 (validation): 1,000 个样本,1,884,850 字节
- 测试集 (test): 1,000 个样本,1,884,850 字节
相关研究
- 论文:
- https://arxiv.org/abs/2406.05797
- https://openreview.net/forum?id=eGqQyTAbXC
- 代码库: https://github.com/QizhiPei/3D-MolT5
- 研究项目: 3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling
作者信息
Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu
搜集汇总
数据集介绍

构建方式
在计算化学领域,高质量数据集的构建对推动分子反应预测研究至关重要。e3fp-mol-instructions数据集基于三维分子结构信息,通过系统化采集与处理有机化学反应数据,将每个反应实例转化为包含指令、输入分子、输出分子及分子指纹的结构化记录。其构建过程整合了先进的分子表示学习方法,确保数据在化学空间中的多样性与准确性,为模型训练提供了可靠的基础。
特点
该数据集的核心特点体现在其多维信息融合与标准化组织方式上。每个样本均包含自然语言指令、分子SMILES字符串及e3fp分子指纹向量,有效结合了符号表示与数值特征。数据集规模庞大,涵盖十二万余训练样本,划分为训练、验证与测试子集,支持监督学习与评估。其设计注重化学反应的空间结构依赖性,为模型理解分子转化过程提供了丰富而一致的信息来源。
使用方法
在分子反应预测任务中,该数据集适用于训练和评估基于指令的分子生成模型。研究人员可借助其结构化输入-输出对,训练模型根据指令或输入分子生成目标产物。分子指纹特征可作为补充输入增强模型对三维结构的感知。典型使用流程包括加载指定分割数据、提取分子与文本特征,并设计序列到序列或条件生成任务,以验证模型在正向反应预测中的泛化能力与准确性。
背景与挑战
背景概述
分子文本建模领域近年来受到计算化学与自然语言处理交叉研究的广泛关注。e3fp-mol-instructions-forward-reaction-prediction数据集由Qizhi Pei等研究人员于2024年构建,旨在通过结合分子指纹特征与文本指令,推动正向反应预测任务的发展。该数据集依托3D-MolT5框架,创新性地整合了离散结构信息与语义指令,为分子性质分析与反应路径生成提供了重要数据基础,显著提升了计算化学领域多模态模型的研发水平。
当前挑战
正向反应预测需克服分子结构高维稀疏性与反应路径复杂性的双重挑战,传统方法难以有效捕捉原子间非线性相互作用。数据集构建过程中面临三维分子结构离散化表示的技术瓶颈,需平衡指纹特征维度与计算效率;同时指令模板设计需兼顾化学专业知识准确性与自然语言灵活性,确保模型能够理解并生成符合化学逻辑的预测结果。
常用场景
经典使用场景
在计算化学与药物发现领域,e3fp-mol-instructions-forward-reaction-prediction数据集被广泛用于训练和评估分子反应预测模型。该数据集通过结合分子指纹特征与文本指令,为研究人员提供了一个标准化的基准平台,用于探索化学反应路径的自动推断与生成。其结构化设计使得模型能够学习从反应物到产物的映射关系,为复杂化学过程的模拟与优化奠定了数据基础。
实际应用
在实际应用中,该数据集为药物研发与材料科学提供了重要支撑。制药企业可利用其训练的反应预测模型加速候选化合物的合成路线规划,降低实验试错成本。同时,在绿色化学与工业催化领域,该数据有助于优化反应条件与提高产物选择性,为可持续化学过程的开发提供数据驱动的决策依据。
衍生相关工作
基于该数据集衍生的经典工作包括3D-MolT5等跨模态分子-文本模型,这些研究突破了传统分子表示学习的局限性,将几何结构信息与自然语言指令相结合。后续研究进一步拓展了分子编辑、反应条件推荐等方向,形成了以指令微调和反应生成为核心的技术脉络,推动了化学人工智能领域的范式创新。
以上内容由遇见数据集搜集并总结生成



