e3fp-pubchemqc-prop

Hugging Face2025-09-02 更新2025-09-03 收录

下载链接：

https://huggingface.co/datasets/QizhiPei/e3fp-pubchemqc-prop

下载链接

链接失效反馈

官方服务：

资源简介：

3D-MolT5是一个用于分子文本建模的数据集，它利用了离散结构信息。数据集包含多个特征字段，如索引、任务类型、SMILES表示、指令、输出、分子指纹和SELFIES表示。数据集分为训练集、验证集和测试集，分别包含不同的示例数量。该数据集可用于分子属性的预测等任务。

创建时间：

2025-09-01

原始信息汇总

数据集概述

基本信息

数据集名称: e3fp-pubchemqc-prop
存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-pubchemqc-prop
下载大小: 220,533,758 字节
数据集大小: 2,581,206,884 字节

数据特征

idx_3d: 字符串类型
task: 字符串类型
smiles: 字符串类型
instruction: 字符串类型
output: 字符串类型
molecule_fp: 序列类型，包含整数序列（int32）
selfies: 字符串类型

数据划分

训练集（train）: 2,463,404 个样本，2,066,576,142 字节
验证集（validation）: 308,024 个样本，258,460,934 字节
测试集（test）: 308,248 个样本，256,169,808 字节

相关资源

论文: arxiv, openreview
代码库: 3D-MolT5
作者: Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu

搜集汇总

数据集介绍

构建方式

在计算化学与分子信息学领域，e3fp-pubchemqc-prop数据集通过整合PubChemQC数据库中的分子三维结构信息与量子化学性质构建而成。该数据集采用先进的分子指纹编码技术e3fp，将每个分子的空间构型转化为离散的结构表示，并结合SMILES与SELFIES字符串实现多模态数据对齐。构建过程中严格遵循数据划分原则，划分为训练集、验证集与测试集，确保数据分布的均衡性与评估的可靠性。

特点

该数据集的核心特点在于其融合了分子的三维结构信息与文本描述，提供了丰富的多模态表征。每个样本包含三维分子指纹、SMILES序列、SELFIES字符串以及对应的物化性质文本描述，支持分子生成、性质预测和跨模态推理等任务。数据集规模庞大，涵盖超过300万个分子实例，兼具结构多样性与标注一致性，为分子语言模型的研究提供了高标准的基础资源。

使用方法

该数据集适用于分子与自然语言交叉领域的多项任务，包括分子性质预测、文本引导的分子生成及结构-文本对齐建模。使用者可通过加载预划分的数据分割，直接调用分子指纹、SMILES或SELFIES字段进行模型训练与评估。其多模态特性支持端到端的深度学习框架，如基于Transformer的编码器-解码器模型，广泛应用于药物发现与化学信息学中的自动化推理与生成场景。

背景与挑战

背景概述

分子文本建模作为计算化学与自然语言处理的交叉领域，旨在实现分子结构与文本描述之间的双向转换。e3fp-pubchemqc-prop数据集由研究团队于2024年构建，其核心在于整合PubChemQC数据库的量子化学属性与三维分子指纹（e3fp），通过引入离散结构表征突破传统二维分子描述的局限性。该数据集通过超246万条数据样本，为分子性质预测、文本生成及多模态学习提供了关键基础设施，显著推动了药物发现与材料科学中自动化分子理解的发展。

当前挑战

该数据集需解决分子属性与文本描述间的语义对齐挑战，包括三维结构信息的离散化编码、量子化学性质的精确文本映射，以及多任务学习中的表征一致性维护。构建过程中面临三维分子构象生成的计算复杂性、PubChemQC数据质量控制，及e3fp指纹与SMILES/SELFIES序列的跨模态对齐难题，同时需确保大规模数据处理的标准化与噪声过滤。

常用场景

经典使用场景

在计算化学与药物发现领域，e3fp-pubchemqc-prop数据集被广泛应用于分子性质预测任务。该数据集通过结合三维分子结构指纹与SMILES序列，为机器学习模型提供了丰富的分子表示基础。研究人员利用其训练深度学习架构，实现从分子结构到物理化学性质的端到端映射，显著提升了预测精度与泛化能力。

实际应用

在实际应用中，该数据集支撑了药物先导化合物筛选与材料设计优化等关键场景。制药企业利用其训练的预测模型快速评估化合物生物利用度与毒性，大幅缩短药物开发周期。在材料科学领域，研究人员通过分子性质预测加速新型功能材料的发现，为新能源催化剂与高分子材料的设计提供数据驱动支撑。

衍生相关工作

基于该数据集衍生的经典工作包括3D-MolT5多模态分子文本模型，该模型实现了分子结构与自然语言描述的跨模态对齐。后续研究进一步拓展了分子生成与蛋白质-配体相互作用预测等方向，催生了诸如三维分子对话系统与自动化分子设计平台等创新成果，推动了AI辅助化学研究的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集