e3fp-mol-instructions-qm9
收藏Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-qm9
下载链接
链接失效反馈官方服务:
资源简介:
3D-MolT5数据集是一个用于分子文本建模的数据集,包含了分子的结构信息。数据集分为训练集、验证集和测试集,包含的特征有指令(instruction)、输出(output)、分子指纹(molecule_fp)、自我表示(selfies)和简化分子线性输入规范(smiles)。
创建时间:
2025-09-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: e3fp-mol-instructions-qm9
- 存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-qm9
- 总下载大小: 40,466,339 字节
- 总数据集大小: 166,759,551 字节
数据特征
- instruction: 字符串类型,包含指令信息
- output: 字符串类型,包含输出信息
- molecule_fp: 序列类型,包含int32序列的分子指纹
- selfies: 字符串类型,包含SELFIES表示
- smiles: 字符串类型,包含SMILES表示
数据划分
- 训练集: 347,774 个样本,164,925,997 字节
- 验证集: 1,928 个样本,916,777 字节
- 测试集: 1,928 个样本,916,777 字节
相关资源
- 论文:
- https://arxiv.org/abs/2406.05797
- https://openreview.net/forum?id=eGqQyTAbXC
- 代码库: https://github.com/QizhiPei/3D-MolT5
作者信息
Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu
搜集汇总
数据集介绍

构建方式
在分子科学与自然语言处理的交叉领域,e3fp-mol-instructions-qm9数据集通过系统化流程构建。该数据集基于QM9分子数据库,利用E3FP指纹技术将三维分子结构转化为离散表示,并结合指令微调框架生成文本描述。每个样本包含分子结构编码与对应的自然语言指令-输出对,确保了数据在结构信息与语义层面的对齐,为分子-文本建模任务提供了高质量的多模态基础。
使用方法
该数据集适用于分子-文本双向转换任务的训练与评估。研究人员可基于指令-输出对训练分子描述生成模型,或利用分子指纹与结构数据开发属性预测系统。使用时应遵循标准数据拆分,以训练集进行模型优化,验证集调整超参数,测试集评估泛化性能。数据集支持端到端的多模态学习,可直接输入分子编码器或文本生成模型,推动药物发现与化学信息学领域的智能化发展。
背景与挑战
背景概述
分子文本建模领域近年来受到计算化学与自然语言处理交叉研究的广泛关注。e3fp-mol-instructions-qm9数据集由Qizhi Pei等研究人员于2024年创建,旨在探索三维分子结构表示与文本描述之间的语义映射关系。该数据集基于量子化学计算基准QM9构建,通过引入指令微调范式,推动分子属性预测与文本生成任务的协同发展,为药物发现和材料设计提供了重要的数据支撑。
当前挑战
该数据集核心挑战在于解决分子结构离散表示与连续文本语义之间的模态鸿沟问题,具体体现在三维分子指纹的拓扑特征与自然语言描述的关联建模。构建过程中需克服量子化学数据标准化处理的复杂性,包括分子构象优化、特征对齐以及指令模板的专家验证,同时确保化学信息的准确性与文本描述的一致性。
常用场景
经典使用场景
在分子科学与自然语言处理的交叉领域,e3fp-mol-instructions-qm9数据集为分子属性预测与文本描述生成提供了关键支持。该数据集通过结合分子指纹(E3FP)、SMILES表示及文本指令,典型应用于分子性质的多模态学习任务,例如根据文本指令生成对应的分子结构或反向解析分子特征为自然语言描述。
解决学术问题
该数据集有效解决了分子表示学习与文本建模之间的语义对齐问题,为研究分子-文本多模态理解提供了标准化基准。其意义在于推动了计算化学与人工智能的融合,使模型能够同时处理离散分子结构和连续语言信息,促进了药物发现与材料设计中的自动化知识提取与生成。
实际应用
在实际应用中,该数据集支撑了智能药物设计平台的开发,例如通过自然语言指令自动生成候选分子结构,或为化学研究人员提供分子属性的文本解释。这些能力可加速高通量筛选过程,降低实验成本,并在教育工具中用于分子知识的可视化与交互式学习。
数据集最近研究
最新研究方向
在分子科学与自然语言处理的交叉领域,e3fp-mol-instructions-qm9数据集正推动三维分子表征与文本指令的融合研究。当前前沿聚焦于利用离散三维分子指纹(E3FP)增强多模态分子理解,结合自回归模型实现分子属性预测与文本生成的统一框架。这一方向呼应了AI for Science浪潮中可解释分子智能的发展需求,为药物发现与材料设计提供了结构感知的语义建模基础,显著提升了分子表征与自然语言交互的精确性与泛化能力。
以上内容由遇见数据集搜集并总结生成



