e3fp-chebi-molgen

Hugging Face2025-09-02 更新2025-09-03 收录

下载链接：

https://huggingface.co/datasets/QizhiPei/e3fp-chebi-molgen

下载链接

链接失效反馈

官方服务：

资源简介：

3D-MolT5数据集是一个用于分子文本建模的数据集，包含了分子的结构信息。数据集分为验证集、测试集和训练集，特征字段包括分子ID、SMILES字符串、输出字符串、分子指纹、SELFIES字符串和指令字符串。

创建时间：

2025-09-01

原始信息汇总

数据集概述

基本信息

数据集名称: e3fp-chebi-molgen
存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-chebi-molgen
总大小: 57,190,864 字节
下载大小: 15,889,492 字节

数据特征

cid: int64 类型，表示化合物标识符
smiles: string 类型，表示SMILES字符串
output: string 类型，表示输出内容
molecule_fp: sequence 类型，序列元素为 int32，表示分子指纹
selfies: string 类型，表示SELFIES字符串
instruction: string 类型，表示指令文本

数据划分

训练集: 26,407 个样本，45,862,638 字节
验证集: 3,301 个样本，5,735,660 字节
测试集: 3,300 个样本，5,592,566 字节

相关资源

论文: https://arxiv.org/abs/2406.05797, https://openreview.net/forum?id=eGqQyTAbXC
代码库: https://github.com/QizhiPei/3D-MolT5
作者: Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu

搜集汇总

数据集介绍

构建方式

在化学信息学领域，e3fp-chebi-molgen数据集通过整合ChEBI数据库中的分子结构信息构建而成。其构建过程涉及从ChEBI提取标准化分子数据，并利用e3fp算法生成三维分子指纹，同时结合SMILES和SELFIES字符串表示，确保分子结构的准确编码。数据经过清洗与验证，划分为训练、验证和测试子集，以支持机器学习模型的开发与评估。

特点

该数据集的核心特点在于其多模态表示，涵盖分子标识符（CID）、SMILES字符串、SELFIES序列以及三维分子指纹，提供了丰富的结构信息。数据集规模适中，包含超过3万个样本，每个样本均附带文本指令，便于自然语言处理任务的集成。其多样化的特征设计支持分子生成、描述和预测等多项研究，增强了在计算化学中的实用性。

使用方法

使用本数据集时，研究人员可借助其预划分的子集进行模型训练、验证和测试，特别适用于分子文本生成或结构预测任务。通过加载HuggingFace平台提供的标准格式文件，用户可直接访问分子指纹、SMILES和指令数据，集成到深度学习框架中。数据集支持端到端工作流，适用于训练如3D-MolT5之类的模型，促进分子与文本间的跨模态研究。

背景与挑战

背景概述

分子表示学习作为计算化学与药物发现领域的核心研究方向，近年来受到学术界与工业界的广泛关注。e3fp-chebi-molgen数据集由研究团队于2024年构建，旨在整合分子结构的三维空间信息与文本描述，推动多模态分子建模的发展。该数据集基于ChEBI数据库，涵盖超过3万种化学实体，通过结合E3FP分子指纹、SMILES序列及SELFIES表示，为分子生成与性质预测任务提供了丰富的结构化与语义信息。其创新性在于首次系统性地融合了分子的离散结构表征与自然语言描述，为药物重定位、分子设计等应用提供了重要数据基础。

当前挑战

该数据集致力于解决分子-文本跨模态理解与生成的复杂问题，其核心挑战在于如何有效对齐分子的几何结构特征与人类可读的文本描述。构建过程中需克服三维分子构象的确定性表示难题，以及SMILES与SELFIES等符号系统与自然语言之间的语义鸿沟。此外，数据标准化面临异构化学数据库的整合困难，包括分子标识符的一致性校验、立体化学信息的精确编码，以及文本描述的专业性与准确性保障。这些挑战直接影响模型对分子空间结构与功能关联的深层推理能力。

常用场景

经典使用场景

在计算化学与药物发现领域，e3fp-chebi-molgen数据集通过整合分子指纹（molecule_fp）、SMILES表示及文本描述，为分子生成与性质预测任务提供了多模态数据基础。该数据集典型应用于分子结构生成与分子-文本跨模态理解，支持模型学习从三维分子构型到自然语言描述的映射关系，为自动化分子设计奠定数据基石。

解决学术问题

该数据集有效解决了分子表示学习中三维结构信息与文本描述间的语义对齐问题，推动了分子-文本跨模态建模研究的发展。通过提供标准化的分子指纹与自描述文本对，它显著提升了分子性质预测、反应生成及药物分子设计的准确性，为计算化学领域提供了可靠的多模态评估基准。

衍生相关工作

基于该数据集衍生的经典工作包括3D-MolT5等跨模态分子文本模型，这些模型通过融合三维分子指纹与自然语言描述，实现了分子生成与文本解释的双向转换。后续研究进一步拓展了其在分子性质预测、反应条件推荐等方向的应用，推动了AI辅助化学研究的深入发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集