five

e3fp-uspto-50k

收藏
Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/QizhiPei/e3fp-uspto-50k
下载链接
链接失效反馈
官方服务:
资源简介:
3D-MolT5数据集包含了分子的结构信息和文本描述,旨在用于分子文本建模。数据集由三个特征字段组成:rect_selfies和prod_selfies表示分子的自我照片,molecule_fp表示分子的指纹。数据集分为测试集、训练集和验证集,分别包含5007、40008和5001个示例。总数据大小为64494377字节。

The 3D-MolT5 dataset contains structural information and textual descriptions of molecules, and is designed for molecular text modeling. The dataset consists of three feature fields: rect_selfies and prod_selfies represent molecular SELFIES representations, while molecule_fp represents the molecular fingerprint. The dataset is divided into test set, training set and validation set, which contain 5007, 40008 and 5001 samples respectively. The total size of the dataset is 64,494,377 bytes.
创建时间:
2025-09-01
原始信息汇总

数据集概述

基本信息

  • 数据集名称: e3fp-uspto-50k
  • 存储位置: https://huggingface.co/datasets/QizhiPei/e3fp-uspto-50k
  • 下载大小: 6,569,420 字节
  • 数据集大小: 64,494,377 字节

数据特征

  • rect_selfies: 字符串类型,表示反应物的SELFIES表示
  • prod_selfies: 字符串类型,表示产物的SELFIES表示
  • molecule_fp: 整数序列类型,表示分子指纹

数据划分

划分类型 样本数量 数据大小(字节)
训练集 40,008 51,626,764
验证集 5,001 6,434,059
测试集 5,007 6,433,554

相关研究

  • 论文:
    • https://arxiv.org/abs/2406.05797
    • https://openreview.net/forum?id=eGqQyTAbXC
  • 代码库: https://github.com/QizhiPei/3D-MolT5
  • 研究项目: 3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling

作者信息

Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu

搜集汇总
数据集介绍
main_image_url
构建方式
在化学信息学领域,e3fp-uspto-50k数据集基于USPTO-50k专利反应数据构建,采用先进的E3FP分子指纹技术,将每个反应的反应物和产物转化为三维分子结构表示。通过SELFIES字符串编码确保分子结构的有效性,并生成对应的二进制指纹序列,最终划分为训练集、验证集和测试集,确保数据分布的均衡性与科学性。
使用方法
研究人员可利用该数据集训练分子表示学习模型,通过输入SELFIES字符串或分子指纹序列,实现反应预测、分子生成或跨模态任务。典型应用包括加载预划分的数据分割,提取反应物与产物的特征对,结合深度学习框架如PyTorch或TensorFlow,进行端到端的模型训练与评估,推动化学人工智能的发展。
背景与挑战
背景概述
分子表征学习作为计算化学与人工智能交叉领域的前沿方向,旨在通过机器学习方法解析分子结构与功能间的复杂映射关系。e3fp-uspto-50k数据集由研究团队于2024年构建,其核心目标在于整合三维分子构象信息与文本描述,推动分子-文本多模态建模的发展。该数据集基于USPTO-50k化学反应数据,创新性地引入E3FP三维分子指纹表征,为分子性质预测、反应条件生成等任务提供了关键数据支撑,显著提升了模型对分子空间结构的感知能力。
当前挑战
该数据集首要解决分子文本联合建模中三维结构信息缺失的挑战,传统分子表征多局限于二维拓扑结构,难以捕获空间构象对化学性质的影响。构建过程中需克服三维构象生成的计算复杂性,以及SMILES与SELFIES等多种分子表示格式间的语义对齐问题。此外,如何确保E3FP指纹与文本描述在向量空间中的一致性,并处理大规模分子动力学模拟产生的数据噪声,均是数据集构建面临的技术瓶颈。
常用场景
经典使用场景
在计算化学与药物发现领域,e3fp-uspto-50k数据集广泛应用于分子表示学习与反应预测任务。该数据集通过提供反应物与产物的SELFIES字符串及分子指纹,为机器学习模型训练提供了结构化且标准化的输入,尤其在基于Transformer的分子性质预测和反应路径规划中表现卓越。
解决学术问题
该数据集有效解决了分子表示中离散结构与连续特征融合的难题,为三维分子信息与文本描述之间的跨模态建模提供了基准数据支持。其意义在于推动了分子生成、反应条件预测等核心研究方向的发展,并为药物分子设计提供了可解释的计算模型基础。
实际应用
实际应用中,e3fp-uspto-50k被广泛集成于自动化合成路线设计平台与药物重定位系统中。制药企业借助该数据集训练模型,加速候选化合物的筛选与优化,显著降低实验成本并提高研发效率,尤其在抗病毒药物和靶向疗法开发中发挥关键作用。
数据集最近研究
最新研究方向
在计算化学与药物发现领域,e3fp-uspto-50k数据集正推动分子表示学习与三维结构信息融合的前沿探索。该数据集通过结合SELFIES字符串与分子指纹序列,为分子-文本跨模态建模提供了关键支撑。近期研究聚焦于利用离散结构表征提升分子性质预测与反应生成任务的准确性,尤其在3D-MolT5等框架中,通过引入三维构象数据增强分子语言模型的几何感知能力。这一方向与AI驱动的自动化合成路线设计、高通量虚拟筛选等热点紧密关联,显著加速了新药研发与功能材料设计的智能化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作