HoangHa/smiles-selfies-pretrain

Name: HoangHa/smiles-selfies-pretrain
Creator: HoangHa
Published: 2024-05-25 13:42:57
License: 暂无描述

Hugging Face2024-05-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/HoangHa/smiles-selfies-pretrain

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: molecule_smiles dtype: string - name: SELFIES dtype: string splits: - name: train num_bytes: 68884384659.10132 num_examples: 200904153 download_size: 13563392193 dataset_size: 68884384659.10132 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

HoangHa

原始信息汇总

数据集概述

数据集特征

名称: molecule_smiles
- 数据类型: 字符串
名称: SELFIES
- 数据类型: 字符串

数据集分割

分割名称: train
- 数据大小: 68884384659.10132 字节
- 示例数量: 200904153

数据集大小

下载大小: 13563392193 字节
总数据大小: 68884384659.10132 字节

搜集汇总

数据集介绍

构建方式

在化学信息学领域，分子表示方法的标准化对于机器学习模型的预训练至关重要。HoangHa/smiles-selfies-pretrain数据集通过整合公开的化学数据库，系统性地收集了超过2亿个分子样本。每个样本均包含SMILES字符串及其对应的SELFIES表示，确保了分子结构信息的完整性与一致性。数据集的构建过程注重化学结构的多样性与代表性，涵盖了广泛的有机化合物类别，为后续的模型训练提供了坚实的化学基础。

使用方法

在化学机器学习研究中，该数据集主要用于分子表示学习的预训练任务。研究人员可以加载数据集中的SMILES或SELFIES字符串，作为输入特征训练自编码器、Transformer等神经网络模型。通过预训练，模型能够学习分子结构的潜在表示，进而应用于分子生成、性质预测或反应规划等下游任务。数据集以标准格式存储，支持通过HuggingFace库直接访问，便于集成到现有的机器学习流程中，加速化学人工智能领域的实验与创新。

背景与挑战

背景概述

在计算化学与药物发现领域，分子表示方法是连接化学结构与机器学习模型的关键桥梁。HoangHa/smiles-selfies-pretrain数据集由研究人员HoangHa于近年构建，旨在通过整合SMILES（简化分子线性输入系统）与SELFIES（自引用嵌入字符串）两种分子表示法，为大规模分子预训练提供统一且规范化的数据基础。该数据集的核心研究问题聚焦于克服传统SMILES表示在语法有效性上的局限性，推动分子生成与性质预测模型向更稳健、可解释的方向发展，对加速新药研发与材料设计进程具有深远影响。

当前挑战

该数据集致力于解决分子表示学习中的关键挑战：传统SMILES字符串在语法上常产生无效结构，限制了生成模型的可靠性；而SELFIES虽能保证语法有效性，但其普及与应用仍面临标准化不足的障碍。在构建过程中，挑战主要体现在海量化合物的数据清洗与格式对齐，需从多元来源中提取并统一数百万分子实例，同时确保两种表示法间的一致性与完整性，这对计算资源与算法效率提出了极高要求。

常用场景

经典使用场景

在化学信息学领域，分子表示学习是药物发现与材料设计的基石。HoangHa/smiles-selfies-pretrain数据集通过整合SMILES与SELFIES两种分子字符串表示，为大规模预训练模型提供了丰富资源。该数据集常用于训练自监督学习模型，以捕捉分子结构的深层语义特征，从而在分子性质预测、反应生成等任务中实现高效表征。

解决学术问题

该数据集有效应对了传统分子表示中语法无效性与语义模糊性的挑战。通过提供规范化的SELFIES表示，确保了分子字符串的100%语法有效性，解决了SMILES中常见的无效结构问题。这为分子生成模型的稳定性与可靠性奠定了基础，推动了化学语言模型在逆向合成与分子优化中的理论突破。

实际应用

在工业实践中，该数据集支撑了自动化药物研发流程的构建。基于其训练的预训练模型可加速候选分子的虚拟筛选，降低实验成本。例如，在靶点蛋白配体设计中，模型能够快速生成具有特定生物活性的分子结构，为高通量筛选提供先导化合物，显著缩短药物发现周期。

数据集最近研究