e3fp-pubchem-com
收藏Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-pubchem-com
下载链接
链接失效反馈官方服务:
资源简介:
3D-MolT5数据集是一个用于分子文本建模的任务,它利用了分子的离散结构信息。数据集包含了多个特征字段,如分子ID、任务类型、坐标归一化值、SMILES字符串、指令、输出结果、分子指纹和SELFIES字符串。数据集被划分为训练集、验证集和测试集,分别包含不同的示例数量和大小。
创建时间:
2025-09-01
原始信息汇总
数据集概述
基本信息
- 数据集名称:e3fp-pubchem-com
- 存储位置:https://huggingface.co/datasets/QizhiPei/e3fp-pubchem-com
- 下载大小:25,617,100字节
- 数据集大小:144,613,260字节
数据特征
- cid:字符串类型,表示化合物标识
- task:字符串类型,表示任务类型
- coord_norm:嵌套序列类型,内部序列为float64,表示归一化坐标
- smiles:字符串类型,表示SMILES字符串
- instruction:字符串类型,表示指令文本
- output:字符串类型,表示输出文本
- molecule_fp:嵌套序列类型,内部序列为int32,表示分子指纹
- selfies:字符串类型,表示SELFIES字符串
数据划分
- 训练集:46,532个样本,115,954,177字节
- 验证集:3,885个样本,9,539,068字节
- 测试集:7,746个样本,19,120,015字节
相关资源
- 论文:https://arxiv.org/abs/2406.05797,https://openreview.net/forum?id=eGqQyTAbXC
- 代码库:https://github.com/QizhiPei/3D-MolT5
- 作者:Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu
搜集汇总
数据集介绍

构建方式
在计算化学与分子信息学领域,e3fp-pubchem-com数据集通过整合PubChem数据库中的分子结构信息构建而成。其构建过程涉及从PubChem提取化合物标识符(CID)、SMILES表示和三维坐标数据,并利用e3fp算法生成分子指纹。数据经过标准化处理,划分为训练、验证和测试子集,确保化学空间多样性和结构完整性。
特点
该数据集的核心特征在于同时包含分子的离散符号表示(如SMILES和SELFIES)与连续三维结构信息(coord_norm),并融合了任务指令与文本输出字段。分子指纹序列采用整数编码,支持高效的数值计算,而多模态结构使其适用于分子性质预测、文本生成和跨模态学习任务,显著提升了分子表征的丰富性和实用性。
使用方法
用户可通过加载标准化的训练、验证与测试分割直接使用该数据集,适用于分子文本生成、性质分类或结构重建等任务。每个样本提供分子标识符、指令文本和目标输出,支持端到端模型训练。建议结合三维坐标与指纹特征进行多模态融合,或利用指令字段构建条件生成任务,以充分发挥其跨模态建模潜力。
背景与挑战
背景概述
在计算化学与药物发现领域,分子表征与文本描述间的跨模态理解始终是核心研究议题。e3fp-pubchem-com数据集由研究团队于2024年构建,其依托PubChem化合物数据库,整合了分子三维结构坐标、指纹特征及SMILES序列等多维信息。该数据集旨在推动分子-文本联合建模研究,通过引入离散化结构表征增强分子属性预测与自然语言处理的融合,为人工智能辅助药物设计提供了关键数据支撑。
当前挑战
该数据集致力于解决分子表征与文本语义对齐的复杂问题,其挑战在于如何将高维稀疏的分子结构特征转化为可计算的离散符号,并保持化学语义的完整性。构建过程中需克服三维坐标标准化、分子指纹维度统一及多模态数据一致性校验等关键技术难题,同时需确保大规模化合物数据的可解释性与计算效率的平衡。
常用场景
经典使用场景
在计算化学与药物发现领域,e3fp-pubchem-com数据集通过整合分子结构指纹、空间坐标与文本描述,为多模态分子表示学习提供了重要支撑。该数据集典型应用于分子性质预测、药物活性筛选及分子生成任务,研究者可利用其丰富的三维结构信息与语义标注,训练模型理解分子空间构象与功能特性之间的复杂关联。
解决学术问题
该数据集有效解决了分子表示学习中二维结构与三维构象信息割裂的学术难题,通过提供标准化坐标数据与分子指纹,支持模型同时捕获拓扑与空间特征。其意义在于推动了三维感知的分子语言模型发展,为药物设计中的构效关系研究和反应机理分析提供了可靠的数据基础,显著提升了分子属性预测的精度与可解释性。
衍生相关工作
基于该数据集衍生的经典工作包括3D-MolT5等跨模态分子语言模型,其通过融合SMILES序列与三维坐标信息实现了分子描述生成与性质预测的统一框架。后续研究进一步拓展了分子构象生成、蛋白质-配体相互作用预测等方向,推动了化学自然语言处理领域的范式创新与技术演进。
以上内容由遇见数据集搜集并总结生成



