e3fp-pubchem-cap
收藏Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-pubchem-cap
下载链接
链接失效反馈官方服务:
资源简介:
3D-MolT5是一个用于分子文本建模的数据集,它通过利用分子的离散结构信息来提高模型对分子的理解和表示。数据集包含多个字段,如分子标识符、任务类型、标准化坐标、SMILES表示、指令、输出、增强输出、分子指纹和SELFIES编码。数据集分为训练集、验证集和测试集,以供不同的训练和评估阶段使用。
3D-MolT5 is a dataset for molecular text modeling. It leverages the discrete structural information of molecules to enhance the model's understanding and representation of molecules. The dataset includes multiple fields, such as molecular identifiers, task types, standardized coordinates, SMILES representations, instructions, outputs, augmented outputs, molecular fingerprints, and SELFIES encodings. The dataset is split into training, validation and test sets for different training and evaluation stages.
创建时间:
2025-09-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: e3fp-pubchem-cap
- 存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-pubchem-cap
- 总大小: 61,456,960 字节
- 下载大小: 29,347,115 字节
数据特征
- cid: 字符串类型
- task: 字符串类型
- coord_norm: 浮点数序列的序列
- smiles: 字符串类型
- instruction: 字符串类型
- output: 字符串类型
- enriched_output: 字符串类型
- molecule_fp: 整数序列的序列
- selfies: 字符串类型
数据划分
- 训练集: 11,955 个样本,49,267,960 字节
- 验证集: 996 个样本,4,068,678 字节
- 测试集: 1,988 个样本,8,120,322 字节
相关资源
- 论文: https://arxiv.org/abs/2406.05797, https://openreview.net/forum?id=eGqQyTAbXC
- 代码库: https://github.com/QizhiPei/3D-MolT5
- 作者: Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu
研究背景
该数据集用于3D-MolT5研究,旨在利用离散结构信息进行分子-文本建模。
搜集汇总
数据集介绍

构建方式
在计算化学与自然语言处理的交叉领域,e3fp-pubchem-cap数据集通过整合PubChem数据库中的分子结构与文本描述构建而成。其核心方法涉及从PubChem提取标准化分子标识符(SMILES与SELFIES)、三维坐标归一化数据以及分子指纹序列,并辅以人工撰写的指令-输出对,确保数据在结构表征与语义描述间的一致性。
特点
该数据集显著特点在于同时包含分子的多模态表征:离散的结构指纹(molecule_fp)、规范化三维坐标(coord_norm)及富文本描述(enriched_output)。每个样本均关联化学标识(cid)、任务类型(task)与指令文本,支持分子生成、属性预测及文本-结构对齐等多种任务,为三维分子语言建模提供全面基础。
使用方法
使用者可通过加载标准化的训练、验证与测试分割集,直接调用分子指纹或坐标数据驱动生成模型训练。文本字段(instruction/output)适用于分子描述生成或指令跟随任务,而结构字段(smiles/selfies/coord_norm)可用于重构分子几何形态。该设计兼容分子预训练与下游微调流程。
背景与挑战
背景概述
在计算化学与药物发现领域,分子表征与文本描述之间的跨模态理解已成为关键研究方向。e3fp-pubchem-cap数据集由研究团队于2024年构建,旨在推动三维分子结构与自然语言描述的融合建模。该数据集基于PubChem化合物数据库,通过系统整合分子空间坐标、指纹特征及文本注释,为分子属性预测与生成任务提供多模态支持。其创新性体现在将离散结构信息引入分子-文本交互框架,显著提升了模型对分子空间构象与化学性质的理解能力,为人工智能辅助药物设计奠定了数据基础。
当前挑战
该数据集核心挑战在于解决分子三维结构与文本描述间的语义对齐问题,需克服分子构象多样性带来的表征复杂性。构建过程中面临多模态数据融合的技术难点,包括从PubChem原始数据中提取标准化三维坐标、生成一致性分子指纹,以及保证文本描述与化学结构的精确匹配。此外,需确保大规模分子数据的化学合理性验证与噪声过滤,这对数据处理流程的可靠性与计算效率提出了较高要求。
常用场景
经典使用场景
在计算化学与药物发现领域,e3fp-pubchem-cap数据集为分子表示学习与文本生成任务提供了重要支持。该数据集整合了PubChem化合物库的分子结构信息与文本描述,通过标准化坐标、分子指纹及SMILES表示等形式,广泛应用于分子性质预测、化合物分类以及分子-文本跨模态建模研究。
实际应用
在药物研发与材料科学中,该数据集支持自动化分子说明书生成、化合物智能检索与虚拟筛选等实际应用。科研人员可基于其丰富的分子-文本配对数据,开发智能系统辅助化学家快速理解分子特性、优化合成路径,从而加速新药发现与功能材料设计的进程。
衍生相关工作
该数据集衍生了诸如3D-MolT5等一系列经典工作,这些研究聚焦于分子结构与自然语言的联合建模,推动了跨模态表示学习在化学领域的深入应用。相关成果不仅拓展了分子文本生成、分子问答等方向的研究边界,还为AI驱动的化学信息处理提供了新的方法论基础。
以上内容由遇见数据集搜集并总结生成



