e3fp-mol-instructions-react-all

Hugging Face2025-09-02 更新2025-09-03 收录

下载链接：

https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-react-all

下载链接

链接失效反馈

官方服务：

资源简介：

3D-MolT5是一个用于分子文本建模的数据集，它利用离散的结构信息来提高模型性能。数据集包含四个字段：指令(instruction)、输入(input)、输出(output)和分子指纹(molecule_fp)。分子指纹是一个整数序列。数据集分为训练集、验证集和测试集，分别包含377,452、3,000和3,000个示例。数据集的总大小为710,265,477字节，下载大小为52,692,522字节。

创建时间：

2025-09-01

原始信息汇总

数据集概述

基本信息

数据集名称: e3fp-mol-instructions-react-all
存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-react-all
总大小: 710,265,477 字节
下载大小: 52,692,522 字节

数据特征

instruction: 字符串类型
input: 字符串类型
output: 字符串类型
molecule_fp: 整数序列类型（int32）

数据划分

训练集: 377,452 个样本，699,266,349 字节
验证集: 3,000 个样本，5,499,564 字节
测试集: 3,000 个样本，5,499,564 字节

相关资源

论文: https://arxiv.org/abs/2406.05797, https://openreview.net/forum?id=eGqQyTAbXC
代码库: https://github.com/QizhiPei/3D-MolT5
作者: Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu

搜集汇总

数据集介绍

构建方式

在分子科学与自然语言处理的交叉领域，e3fp-mol-instructions-react-all数据集通过系统化流程构建。该数据集整合了分子反应相关的文本指令与结构特征，采用e3fp分子指纹编码技术将三维分子结构转化为离散序列。数据来源于经过验证的化学数据库，涵盖37万余条样本，划分为训练、验证与测试三个子集，确保数据分布的科学性与实用性。

特点

本数据集的核心特点在于融合多模态分子表征与自然语言指令。每个样本包含文本指令、输入输出对及分子指纹序列，其中分子指纹采用高维稀疏向量精确描述三维结构特性。数据规模庞大且划分严谨，支持分子生成、反应预测等任务。其结构化设计兼顾机器可读性与化学语义完整性，为分子-文本交互建模提供高质量基准。

使用方法

使用者可通过加载标准数据拆分开展分子文本生成或理解任务。训练集适用于微调语言模型以学习分子结构与文本的映射关系，验证集用于超参数优化与早期停止，测试集则评估模型泛化能力。分子指纹序列可直接作为模型输入特征，结合指令文本实现端到端训练。该数据集兼容主流机器学习框架，支持分子设计、反应机制分析等应用场景。

背景与挑战

背景概述

分子文本建模领域近年来受到广泛关注，旨在建立分子结构与自然语言描述之间的跨模态关联。e3fp-mol-instructions-react-all数据集由Qizhi Pei等研究人员于2024年创建，依托3D-MolT5研究框架，专注于整合分子的三维结构信息与化学反应文本描述。该数据集通过结合分子指纹特征与文本指令，推动分子属性预测、反应结果生成等核心研究问题的发展，为计算化学和药物发现领域提供了重要的多模态数据基础。

当前挑战

该数据集致力于解决分子-文本跨模态理解的关键挑战，包括分子结构的三维空间表征与文本描述的语义对齐难题。构建过程中面临分子构象采样复杂性、反应机制文本描述的标准化以及大规模分子指纹计算的资源需求等挑战。如何准确捕捉分子空间构型与化学反应文本之间的对应关系，同时保持数据的一致性和可解释性，构成了数据集构建的核心技术瓶颈。

常用场景

经典使用场景

在计算化学与药物发现领域，e3fp-mol-instructions-react-all数据集被广泛用于训练和评估分子-文本多模态模型。该数据集通过结合分子指纹（molecule_fp）与自然语言指令（instruction），支持模型学习分子结构与化学反应之间的复杂对应关系，典型场景包括分子性质预测、反应条件生成以及化学知识问答等任务。

实际应用

在实际应用中，该数据集支持智能药物研发平台构建，例如自动化合成路线规划、反应条件优化与分子性质解释。化学研究人员可通过自然语言指令直接查询或生成分子反应方案，加速实验设计流程，减少试错成本，并在教育领域用于构建化学知识辅助教学系统。

衍生相关工作

该数据集衍生了多项经典研究工作，特别是基于3D-MolT5框架的分子-文本联合建模方法。相关成果包括分子描述生成、反应预测模型以及多模态化学大语言模型，这些工作进一步拓展了分子表示在蛋白质相互作用、材料设计等领域的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集