haydn-jones/Guacamol

Name: haydn-jones/Guacamol
Creator: haydn-jones
Published: 2023-11-18 20:39:16
License: 暂无描述

Hugging Face2023-11-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/haydn-jones/Guacamol

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: SMILE dtype: string - name: SELFIE dtype: string splits: - name: train num_bytes: 351931924.06659317 num_examples: 1273077 - name: val num_bytes: 21949894.491152223 num_examples: 79564 - name: test num_bytes: 65951655.37470361 num_examples: 238694 download_size: 148629975 dataset_size: 439833473.932449 configs: - config_name: default data_files: - split: train path: data/train-* - split: val path: data/val-* - split: test path: data/test-* --- # Dataset Card for Guacamol Dataset from the [Guacamol](https://github.com/BenevolentAI/guacamol) benchmark ([paper](https://arxiv.org/abs/1811.09621)). Dataset contains two columns, SMILE and SELFIE. Splits are identical to original splits, however, any SMILE that could not be converted to a SELFIE was dropped. Likewise, any SELFIE in the val/test splits that contained a token not found in the train split was dropped. Can be used with [this tokenizer](https://huggingface.co/haydn-jones/GuacamolSELFIETokenizer).

dataset_info: 特征: - 名称: SMILE（简化分子线性输入规范，Simplified Molecular-Input Line-Entry System）数据类型: 字符串 - 名称: SELFIE（自引用嵌入字符串，Self-Referencing Embedded Strings）数据类型: 字符串数据集拆分: - 名称: 训练集（train）字节数: 351931924.06659317 样本数: 1273077 - 名称: 验证集（val）字节数: 21949894.491152223 样本数: 79564 - 名称: 测试集（test）字节数: 65951655.37470361 样本数: 238694 下载大小: 148629975 总数据大小: 439833473.932449 配置项: - 配置名称: 默认（default）数据文件: - 拆分: 训练集路径: data/train-* - 拆分: 验证集路径: data/val-* - 拆分: 测试集路径: data/test-* # Guacamol 数据集卡片本数据集源自[Guacamol](https://github.com/BenevolentAI/guacamol)基准测试框架，配套学术论文可参见[arXiv:1811.09621](https://arxiv.org/abs/1811.09621)。本数据集包含两列字段，分别为SMILE与SELFIE。其数据集拆分与原始拆分保持一致，但所有无法转换为SELFIE的SMILE均已被移除；同理，验证集与测试集中所有包含训练集未出现的Token的SELFIE也已被移除。本数据集可配合[该分词器（GuacamolSELFIETokenizer）](https://huggingface.co/haydn-jones/GuacamolSELFIETokenizer)使用。

提供机构：

haydn-jones

原始信息汇总

数据集概述

数据集信息

特征:
- SMILE: 数据类型为字符串。
- SELFIE: 数据类型为字符串。
拆分:
- 训练集:
  - 字节数: 351931924.06659317
  - 样本数: 1273077
- 验证集:
  - 字节数: 21949894.491152223
  - 样本数: 79564
- 测试集:
  - 字节数: 65951655.37470361
  - 样本数: 238694
下载大小: 148629975
数据集大小: 439833473.932449

配置

配置名称: default
数据文件:
- 训练集: data/train-*
- 验证集: data/val-*
- 测试集: data/test-*

搜集汇总

数据集介绍

构建方式

在药物发现与化学信息学领域，Guacamol数据集作为一项重要基准，其构建过程体现了严谨的数据处理原则。该数据集源自Guacamol基准测试，原始数据经过系统化筛选与转换，确保化学结构的准确表征。具体而言，数据集包含SMILE和SELFIE两列分子表示，严格遵循原始划分标准，但剔除了无法转换为SELFIE格式的SMILE序列。同时，在验证集与测试集中，任何包含训练集未出现令牌的SELFIE序列均被移除，以维持模型泛化评估的可靠性。这种构建方式不仅保留了数据完整性，还强化了化学表示的一致性，为后续模型训练奠定坚实基础。

特点

Guacamol数据集的核心特点在于其双列分子表示结构，即SMILE与SELFIE并行存在，为化学语言模型研究提供了多维度的数据视角。数据集规模庞大，涵盖超过127万训练样本、近8万验证样本及23万测试样本，确保了充足的训练与评估资源。其数据划分严格遵循原始基准，保证了与现有研究工作的可比性。此外，通过过滤异常序列，数据集在令牌层面实现了高度纯净，有效避免了模型训练中的噪声干扰。这些特征共同使得该数据集成为评估分子生成与优化算法性能的理想平台。

使用方法

使用Guacamol数据集时，研究者可借助其标准化的训练、验证与测试划分，直接应用于分子生成模型的开发与评估。数据集兼容专用令牌化工具，如haydn-jones/GuacamolSELFIETokenizer，便于将SELFIE序列转换为模型可处理的输入格式。在实际应用中，用户可加载对应配置文件，通过指定数据文件路径访问各分片，实现高效数据流处理。该数据集适用于监督学习或自监督学习框架，支持分子性质预测、结构优化等任务，为推进人工智能驱动的药物设计提供关键数据支撑。

背景与挑战

背景概述

在计算化学与药物发现领域，分子生成与优化是推动新药研发的关键环节。Guacamol数据集由BenevolentAI团队于2018年创建，旨在为分子生成模型提供一个标准化评估基准。该数据集的核心研究问题聚焦于如何通过人工智能技术高效设计具有特定生物活性的有机分子，从而加速药物候选化合物的发现进程。其影响力深远，不仅促进了生成模型在化学信息学中的应用，还为分子性质预测与结构优化研究设立了严谨的量化标准。

当前挑战

Guacamol数据集致力于解决分子生成领域的核心挑战，即如何生成同时满足多种化学性质约束（如溶解性、毒性）且结构新颖的分子。构建过程中，数据清洗面临显著困难，例如SMILES与SELFIE表示之间的转换可能因语法无效而失败，导致部分样本丢失；此外，为确保模型泛化能力，验证集与测试集中若出现训练集未见的SELFIE标记，则需剔除，这增加了数据一致性与完整性的维护复杂度。

常用场景

经典使用场景

在计算化学与药物发现领域，Guacamol数据集作为分子生成与优化任务的标准基准，广泛应用于评估生成模型在化学空间探索中的性能。该数据集通过提供大规模的SMILES和SELFIE字符串表示，使研究人员能够系统地测试模型在生成具有特定性质（如生物活性、溶解度或毒性）的分子结构方面的能力。经典使用场景包括利用深度学习模型，如变分自编码器或生成对抗网络，从训练数据中学习化学规律，并生成新颖且合理的分子候选物，以加速先导化合物的发现过程。

实际应用

在实际应用中，Guacamol数据集被制药公司和研究机构用于自动化药物发现流程。通过集成该数据集，AI驱动平台能够快速生成和筛选数百万个分子结构，优先选择那些在合成可行性、药效和安全性方面表现优异的候选物。这不仅显著缩短了早期药物研发周期，还降低了实验成本，为针对癌症、神经退行性疾病等复杂疾病的创新疗法开发提供了数据驱动的支持。

衍生相关工作

基于Guacamol数据集，衍生了一系列经典研究工作，包括分子生成模型如JT-VAE、GraphINVENT和MolGPT的改进与评估。这些工作扩展了数据集的用途，例如通过引入强化学习策略来优化分子性质，或结合迁移学习技术适应特定疾病靶点。此外，该数据集还催生了多个开源工具和基准框架，如Guacamol基准套件本身，促进了计算化学与机器学习社区的协作与标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集