five

e3fp-mol-instructions-reagent-prediction

收藏
Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-mol-instructions-reagent-prediction
下载链接
链接失效反馈
官方服务:
资源简介:
3D-MolT5数据集是一个用于分子-文本建模的任务的数据集,包含了指令(instruction)、输入(input)、输出(output)和分子指纹(molecule_fp)等字段。数据集分为训练集、验证集和测试集,总共包含了约124,384个训练样本和2,000个验证及测试样本。该数据集旨在用于训练3D-MolT5模型,该模型通过利用分子的离散结构信息来提高文本和分子之间的建模效果。
创建时间:
2025-09-01
原始信息汇总

数据集概述

基本信息

  • 数据集名称: e3fp-mol-instructions-reagent-prediction
  • 存储位置: Hugging Face数据集库
  • 下载大小: 16,649,173字节
  • 数据集大小: 292,598,273字节

数据特征

  • instruction: 字符串类型,包含指令信息
  • input: 字符串类型,包含输入信息
  • output: 字符串类型,包含输出信息
  • molecule_fp: 整数序列类型,表示分子指纹

数据划分

  • 训练集: 124,384个样本,288,027,693字节
  • 验证集: 1,000个样本,2,285,290字节
  • 测试集: 1,000个样本,2,285,290字节

相关资源

  • 论文: https://arxiv.org/abs/2406.05797, https://openreview.net/forum?id=eGqQyTAbXC
  • 代码库: https://github.com/QizhiPei/3D-MolT5
  • 研究领域: 3D-MolT5: 利用离散结构信息进行分子-文本建模

作者信息

Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu

搜集汇总
数据集介绍
main_image_url
构建方式
在化学信息学领域,e3fp-mol-instructions-reagent-prediction数据集通过系统化流程构建,专注于分子反应预测任务。其构建过程整合了分子指纹特征与自然语言指令,采用e3fp算法生成高维分子表示,并结合专家标注的反应试剂预测数据。数据集包含12万余训练样本及验证测试集各1000样本,通过结构化分割确保数据平衡与可靠性。
特点
该数据集的核心特点体现在多模态数据结构上,每条样本均包含文本指令、分子输入描述、预期输出及分子指纹序列。分子指纹采用三维电子密度指纹(e3fp),能够精确捕捉分子空间结构与电子特性。数据划分科学严谨,训练集与验证测试集完全隔离,有效避免数据泄漏,为模型泛化能力评估提供坚实基础。
使用方法
使用者可通过加载标准化的训练-验证-测试分割直接开展机器学习实验,分子指纹以整型序列格式存储便于模型处理。该数据集专为分子文本联合建模设计,支持端到端的指令跟随训练,可用于训练或评估分子性质预测、反应生成等任务的AI模型。建议遵循原始数据划分方案,利用验证集进行超参数优化,最终在测试集上评估模型性能。
背景与挑战
背景概述
分子文本建模领域近年来受到计算化学与自然语言处理交叉研究的广泛关注。e3fp-mol-instructions-reagent-prediction数据集由研究团队于2024年构建,主要作者包括裴启智、严锐等学者,其核心研究目标在于探索三维分子结构信息在试剂预测任务中的有效表征与利用。该数据集通过融合分子指纹特征与文本指令,为分子性质预测与反应生成提供了多模态学习框架,显著推动了药物发现与合成化学领域的智能化发展。
当前挑战
该数据集致力于解决化学分子试剂预测这一复杂任务,其核心挑战在于如何准确建立三维分子结构与文本描述之间的语义映射关系。构建过程中面临多重技术难点:需精确提取e3fp分子指纹的高维特征,同时保持与自然语言指令的语义一致性;此外,分子构象的离散表示与连续文本空间的对齐需要复杂的特征工程,而大规模分子数据的标注质量与化学逻辑一致性验证亦构成显著挑战。
常用场景
经典使用场景
在计算化学与药物发现领域,该数据集通过结合分子指纹与自然语言指令,为试剂预测任务提供了结构化基准。其经典使用场景涉及训练模型理解化学文本指令并生成相应的分子输出,例如给定反应条件描述后预测所需试剂。这种设置有效模拟了化学家设计合成路径时的推理过程,为分子生成与条件控制提供了标准化评估框架。
实际应用
在实际应用中,该数据集支撑的模型可应用于药物研发流程中的试剂推荐系统,帮助化学家快速筛选适合特定反应的化合物。此外,它在教育领域可用于构建智能化学助手,为学生提供实时合成反应指导,同时在工业化学自动化中赋能高通量实验设计,提升研发效率与准确性。
衍生相关工作
基于该数据集衍生的经典工作包括3D-MolT5系列模型,其通过融合离散结构信息实现了分子与文本的联合建模。后续研究进一步扩展了其在多步反应预测、条件分子生成等方向的应用,并催生了诸如反应条件优化、逆向合成分析等相关分支领域的发展,推动了化学人工智能领域的范式创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作