OpenMol/USPTO_1k_TPL-MMChat

Name: OpenMol/USPTO_1k_TPL-MMChat
Creator: OpenMol
Published: 2024-04-26 18:51:40
License: 暂无描述

Hugging Face2024-04-26 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/OpenMol/USPTO_1k_TPL-MMChat

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: int64 - name: molecules struct: - name: selfies sequence: string - name: smiles sequence: string - name: ground_truth dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string splits: - name: train num_bytes: 431316928 num_examples: 360379 - name: dev num_bytes: 47846233 num_examples: 40059 - name: test num_bytes: 52434767 num_examples: 44511 download_size: 84016121 dataset_size: 531597928 configs: - config_name: default data_files: - split: train path: data/train-* - split: dev path: data/dev-* - split: test path: data/test-* ---

The dataset includes multiple features such as id, molecular information (selfies and smiles sequences), ground_truth, and message information (content and role). The dataset is divided into train, dev, and test sets, each with specified number of examples and byte size. The download size of the dataset is 84016121 bytes, and the total size is 531597928 bytes.

提供机构：

OpenMol

原始信息汇总

数据集概述

数据集特征

id: 整数类型
molecules: 结构化数据
- selfies: 字符串序列
- smiles: 字符串序列
ground_truth: 字符串类型
messages: 列表类型
- content: 字符串类型
- role: 字符串类型

数据集分割

train:
- 字节数: 431,316,928
- 样本数: 360,379
dev:
- 字节数: 47,846,233
- 样本数: 40,059
test:
- 字节数: 52,434,767
- 样本数: 44,511

数据集大小

下载大小: 84,016,121 字节
数据集总大小: 531,597,928 字节

配置

config_name: default
- data_files:
  - train: data/train-*
  - dev: data/dev-*
  - test: data/test-*

搜集汇总

数据集介绍

构建方式

在化学信息学领域，高质量的数据集对于推动分子设计与合成规划至关重要。OpenMol/USPTO_1k_TPL-MMChat数据集基于美国专利商标局（USPTO）的专利文献构建，从中提取了涉及一千个模板的分子反应数据。该数据集通过结构化处理，将每个样本编码为包含分子自引用字符串（SELFIES）与简化分子线性输入规范（SMILES）的表示，同时整合了多轮对话格式的文本消息，以模拟化学合成中的交互式决策过程。数据经过精心划分，形成了训练集、开发集和测试集，确保模型评估的可靠性与泛化能力。

特点

该数据集的核心特点在于其多模态融合架构，巧妙地将分子结构数据与自然语言对话相结合。每个样本不仅提供分子的SELFIES和SMILES序列，以精确描述化学结构，还包含以角色划分的对话消息，模拟真实场景下的化学推理交流。数据规模庞大，涵盖超过四十万条样本，且严格按比例分割为训练、开发和测试部分，支持大规模机器学习模型的训练与验证。这种设计使得数据集能够同时服务于分子生成、反应预测以及人机交互研究，为化学人工智能提供了丰富的实验基础。

使用方法

使用OpenMol/USPTO_1k_TPL-MMChat数据集时，研究人员可借助其标准化的数据格式直接加载至机器学习框架中。数据集以分片文件形式存储，用户可根据配置轻松访问训练、开发和测试分割。每个样本的分子字段可用于训练分子表示学习模型，而对话消息则适用于自然语言处理任务，如化学问答或合成规划助手。通过结合ground_truth标签，模型能够进行监督学习，评估其在分子反应预测或文本生成方面的性能。该数据集兼容主流深度学习库，为化学与人工智能交叉研究提供了便捷的实验平台。

背景与挑战

背景概述

在化学信息学与人工智能交叉领域，分子性质预测与反应路径设计一直是核心研究课题。OpenMol/USPTO_1k_TPL-MMChat数据集由OpenMol研究团队构建，其依托美国专利商标局（USPTO）的化学反应数据，旨在探索大型语言模型在分子生成与任务规划中的应用。该数据集通过结构化对话形式整合分子自编码表示（如SELFIES与SMILES）与自然语言指令，为多模态化学对话系统提供了基准，推动了自动化分子设计向更智能、交互式方向发展，对药物发现与材料科学具有显著影响力。

当前挑战

该数据集致力于解决化学领域中分子生成与反应路径规划的复杂问题，其挑战在于如何准确对齐分子结构表示与自然语言语义，以克服传统方法在灵活性与可解释性上的局限。构建过程中，研究人员需处理大规模专利数据的噪声与不一致性，确保SELFIES与SMILES等分子编码的标准化，同时设计多轮对话逻辑以模拟真实化学任务场景，这涉及数据清洗、格式转换与多模态融合等多重技术难点。

常用场景

经典使用场景

在化学信息学与人工智能交叉领域，OpenMol/USPTO_1k_TPL-MMChat数据集为多模态分子对话建模提供了关键支撑。该数据集整合了分子结构表示（如SMILES和SELFIES）与自然语言对话，典型应用场景包括训练大型语言模型理解化学实体与文本描述之间的复杂映射关系。研究者常利用其多轮对话格式，模拟化学专家与系统之间的交互过程，从而推动分子属性预测、反应条件优化等任务的自动化推理能力发展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态分子语言模型的创新架构上。例如，研究者开发了融合图神经网络与Transformer的混合模型，以同时处理分子序列与文本序列；另有工作探索了基于对话历史的分子编辑策略，实现动态的分子优化建议。这些进展进一步催生了面向特定化学任务（如逆合成规划、毒性预测）的专用对话系统，持续拓展化学人工智能的应用边界。

数据集最近研究