five

e3fp-pubchemqc-prop

收藏
Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-pubchemqc-prop
下载链接
链接失效反馈
官方服务:
资源简介:
3D-MolT5是一个用于分子文本建模的数据集,它利用了离散结构信息。数据集包含多个特征字段,如索引、任务类型、SMILES表示、指令、输出、分子指纹和SELFIES表示。数据集分为训练集、验证集和测试集,分别包含不同的示例数量。该数据集可用于分子属性的预测等任务。
创建时间:
2025-09-01
原始信息汇总

数据集概述

基本信息

  • 数据集名称: e3fp-pubchemqc-prop
  • 存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-pubchemqc-prop
  • 下载大小: 220,533,758 字节
  • 数据集大小: 2,581,206,884 字节

数据特征

  • idx_3d: 字符串类型
  • task: 字符串类型
  • smiles: 字符串类型
  • instruction: 字符串类型
  • output: 字符串类型
  • molecule_fp: 序列类型,包含整数序列(int32)
  • selfies: 字符串类型

数据划分

  • 训练集(train): 2,463,404 个样本,2,066,576,142 字节
  • 验证集(validation): 308,024 个样本,258,460,934 字节
  • 测试集(test): 308,248 个样本,256,169,808 字节

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
在计算化学与分子信息学领域,e3fp-pubchemqc-prop数据集通过整合PubChemQC数据库中的分子三维结构信息与量子化学性质构建而成。该数据集采用先进的分子指纹编码技术e3fp,将每个分子的空间构型转化为离散的结构表示,并结合SMILES与SELFIES字符串实现多模态数据对齐。构建过程中严格遵循数据划分原则,划分为训练集、验证集与测试集,确保数据分布的均衡性与评估的可靠性。
特点
该数据集的核心特点在于其融合了分子的三维结构信息与文本描述,提供了丰富的多模态表征。每个样本包含三维分子指纹、SMILES序列、SELFIES字符串以及对应的物化性质文本描述,支持分子生成、性质预测和跨模态推理等任务。数据集规模庞大,涵盖超过300万个分子实例,兼具结构多样性与标注一致性,为分子语言模型的研究提供了高标准的基础资源。
使用方法
该数据集适用于分子与自然语言交叉领域的多项任务,包括分子性质预测、文本引导的分子生成及结构-文本对齐建模。使用者可通过加载预划分的数据分割,直接调用分子指纹、SMILES或SELFIES字段进行模型训练与评估。其多模态特性支持端到端的深度学习框架,如基于Transformer的编码器-解码器模型,广泛应用于药物发现与化学信息学中的自动化推理与生成场景。
背景与挑战
背景概述
分子文本建模作为计算化学与自然语言处理的交叉领域,旨在实现分子结构与文本描述之间的双向转换。e3fp-pubchemqc-prop数据集由研究团队于2024年构建,其核心在于整合PubChemQC数据库的量子化学属性与三维分子指纹(e3fp),通过引入离散结构表征突破传统二维分子描述的局限性。该数据集通过超246万条数据样本,为分子性质预测、文本生成及多模态学习提供了关键基础设施,显著推动了药物发现与材料科学中自动化分子理解的发展。
当前挑战
该数据集需解决分子属性与文本描述间的语义对齐挑战,包括三维结构信息的离散化编码、量子化学性质的精确文本映射,以及多任务学习中的表征一致性维护。构建过程中面临三维分子构象生成的计算复杂性、PubChemQC数据质量控制,及e3fp指纹与SMILES/SELFIES序列的跨模态对齐难题,同时需确保大规模数据处理的标准化与噪声过滤。
常用场景
经典使用场景
在计算化学与药物发现领域,e3fp-pubchemqc-prop数据集被广泛应用于分子性质预测任务。该数据集通过结合三维分子结构指纹与SMILES序列,为机器学习模型提供了丰富的分子表示基础。研究人员利用其训练深度学习架构,实现从分子结构到物理化学性质的端到端映射,显著提升了预测精度与泛化能力。
实际应用
在实际应用中,该数据集支撑了药物先导化合物筛选与材料设计优化等关键场景。制药企业利用其训练的预测模型快速评估化合物生物利用度与毒性,大幅缩短药物开发周期。在材料科学领域,研究人员通过分子性质预测加速新型功能材料的发现,为新能源催化剂与高分子材料的设计提供数据驱动支撑。
衍生相关工作
基于该数据集衍生的经典工作包括3D-MolT5多模态分子文本模型,该模型实现了分子结构与自然语言描述的跨模态对齐。后续研究进一步拓展了分子生成与蛋白质-配体相互作用预测等方向,催生了诸如三维分子对话系统与自动化分子设计平台等创新成果,推动了AI辅助化学研究的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作