e3fp-pubchem-des
收藏Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-pubchem-des
下载链接
链接失效反馈官方服务:
资源简介:
3D-MolT5数据集是一个用于分子文本建模的数据集,它包含了分子的结构信息,如坐标归一化(coord_norm)、分子指纹(molecule_fp)等。数据集分为训练集、验证集和测试集,分别包含59775、4980和9940个示例。该数据集的目的是利用离散的结构信息来改进分子与文本之间的建模。
创建时间:
2025-09-01
原始信息汇总
数据集概述
基本信息
- 数据集名称:e3fp-pubchem-des
- 存储位置:https://huggingface.co/datasets/QizhiPei/e3fp-pubchem-des
- 总大小:183,526,732 字节
- 下载大小:34,052,509 字节
数据特征
- cid:字符串类型,表示化合物标识符
- task:字符串类型,表示任务类型
- coord_norm:嵌套序列类型,内部序列为 float64 类型,表示归一化坐标
- smiles:字符串类型,表示SMILES分子表示
- instruction:字符串类型,表示指令文本
- output:字符串类型,表示输出文本
- molecule_fp:嵌套序列类型,内部序列为 int32 类型,表示分子指纹
- selfies:字符串类型,表示SELFIES分子表示
数据划分
- 训练集(train):59,775 个样本,147,195,866 字节
- 验证集(validation):4,980 个样本,12,067,720 字节
- 测试集(test):9,940 个样本,24,263,146 字节
相关资源
- 论文:https://arxiv.org/abs/2406.05797,https://openreview.net/forum?id=eGqQyTAbXC
- 代码库:https://github.com/QizhiPei/3D-MolT5
- 作者:Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu
搜集汇总
数据集介绍

构建方式
在计算化学与药物发现领域,e3fp-pubchem-des数据集通过系统化流程构建而成。该数据集整合了PubChem数据库中的分子结构信息,采用e3fp算法生成分子指纹,并结合三维坐标归一化处理与SELFIES表示法,确保化学结构的准确性与一致性。数据划分遵循严谨标准,分为训练集、验证集和测试集,覆盖近七万五千个样本,为分子-文本建模任务提供高质量多模态输入。
特点
该数据集的核心特征体现在其多维化学信息集成能力。每个样本包含分子标识符(CID)、SMILES序列、标准化三维坐标、分子指纹向量及自然语言指令-输出对,形成结构-语义联合表征体系。分子指纹采用整数序列编码,支持高效计算;SELFIES字符串增强了化学结构的鲁棒性表达,而任务描述与输出文本则构建了跨模态关联桥梁,显著提升了数据集在分子属性预测与文本生成任务中的实用性。
使用方法
研究人员可借助该数据集开展分子与自然语言的联合建模研究。典型应用包括分子描述生成、性质预测文本化或反向设计任务。使用时需加载标准化分割方案,依据任务类型选择分子指纹、坐标或文本字段作为模型输入。验证集与测试集可用于评估模型泛化性能,而结合3D-MolT5等专用框架能进一步挖掘三维结构信息与文本语义的映射关系,推动AI驱动的化学研究进展。
背景与挑战
背景概述
在计算化学与药物发现领域,分子表征与文本描述的跨模态学习已成为前沿研究方向。e3fp-pubchem-des数据集由研究团队于2024年创建,主要作者包括裴启智、严锐等学者,旨在解决分子三维结构信息与自然语言描述之间的语义对齐问题。该数据集基于PubChem化合物数据库构建,通过整合分子指纹、空间坐标与文本指令,为分子属性预测和生成任务提供多模态支持,对推动AI辅助药物设计具有重要意义。
当前挑战
该数据集核心挑战在于解决分子三维结构表征与文本描述之间的语义鸿沟,需实现从离散结构数据到连续语言空间的映射。构建过程中面临多重困难:分子坐标归一化处理需要保持空间几何不变性,SMILES与SELFIES字符串的语义一致性验证存在复杂度,且多模态对齐需克服分子指纹高维稀疏性与文本序列的表示差异。此外,数据清洗过程中需消除PubChem源数据中的噪声与异构性,确保化学结构的准确性与文本描述的科学严谨性。
常用场景
经典使用场景
在分子信息处理领域,e3fp-pubchem-des数据集通过结合分子指纹、空间坐标与文本描述,为多模态分子表征学习提供了标准基准。该数据集典型应用于分子性质预测与文本描述生成任务,研究者利用其三维结构数据与SMILES序列的对应关系,训练模型理解分子空间构型与化学特性之间的复杂映射。
衍生相关工作
基于该数据集衍生的经典工作包括3D-MolT5多模态分子文本模型,其通过离散化三维结构表征实现分子描述生成与分子性质预测的统一建模。后续研究进一步拓展了三维分子图神经网络与序列生成模型的融合架构,催生了诸如分子三维构象生成、跨模态分子检索等一系列创新性研究方向。
数据集最近研究
最新研究方向
在计算化学与药物发现领域,e3fp-pubchem-des数据集正推动分子表示学习与多模态建模的深度融合。当前研究聚焦于整合三维分子结构信息与文本描述,通过3D-MolT5等框架实现分子属性预测与自然语言生成的协同优化。这一方向呼应了AI驱动新材料设计的行业热点,尤其在靶向药物筛选和反应机理解释任务中展现出显著潜力。其意义在于突破传统二维分子表征的局限性,为可解释性AI在化学领域的应用提供结构化数据支撑。
以上内容由遇见数据集搜集并总结生成



