smiles-eval

Hugging Face2025-08-15 更新2025-08-16 收录

下载链接：

https://huggingface.co/datasets/eth-sri/smiles-eval

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估大型语言模型(LLM)生成SMILES化学分子表示能力的数据集。它包含了化学分子的自然语言描述和相应的SMILES编码。数据集通过Gemini 2.5 Pro生成描述和SMILES对，经过有效性验证和去重处理。难度等级是根据Gemini 2.5 Pro生成分子的可靠性来划分的。

创建时间：

2025-08-13

原始信息汇总

数据集概述：SMILES eval

数据集基本信息

数据集名称：SMILES eval
下载大小：16,477 bytes
数据集大小：28,147 bytes
测试集样本数：167
测试集大小：28,147 bytes

数据集特征

instance_id：字符串类型，表示实例的唯一标识符
input：字符串类型，表示分子的自然语言描述
output：字符串类型，表示对应的SMILES化学分子表示
difficulty_category：字符串类型，表示生成分子的难度等级

数据集用途

用于评估大型语言模型（LLM）从自然语言描述生成SMILES化学分子表示的能力

数据集生成方法

使用Gemini 2.5 Pro生成分子描述和SMILES对
过滤标准：
- 通过rdkit验证分子有效性
- 确保Gemini能可靠地重新生成分子
- 使用模糊匹配去除重复项
难度评估基于Gemini 2.5 Pro生成分子的可靠性

数据集应用

用于论文《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》的评估
相关评估代码可在GitHub仓库中找到：https://github.com/eth-sri/constrained-diffusion

示例实例

json { "instance_id": "smiles_0", "input": "Pyridine, a six-membered aromatic heterocyclic organic compound containing one nitrogen atom, replacing a C-H unit in a benzene ring.", "output": "n1ccccc1", "difficulty_category": "medium" }

使用示例

python from datasets import load_dataset import json

dataset = load_dataset(eth-sri/smiles-eval) for instance in dataset[test]: print(json.dumps(instance, indent=2)) break

搜集汇总

数据集介绍

构建方式

在计算化学与自然语言处理交叉领域，smiles-eval数据集的构建体现了严谨的分子表示与语言描述映射关系。该数据集通过调用Gemini 2.5 Pro模型生成分子描述与SMILES字符串配对，并采用三重验证机制：基于rdkit工具验证分子结构有效性，通过模型自洽性检验确保SMILES可复现性，结合模糊匹配算法消除重复样本。难度分级依据模型生成稳定性自动标注，形成包含167个测试样本的标准化评估集。

特点

该数据集以SMILES分子线性表示为核心特征，每个样本包含自然语言描述、标准SMILES编码及难度分级三元组。实例覆盖从简单芳香烃到复杂杂环化合物的多样性分子结构，难度标签为下游模型性能评估提供细粒度参考。数据经过严格的化学有效性验证，确保分子描述与SMILES编码的精确对应，为语言模型分子生成能力建立可靠基准。

使用方法

通过HuggingFace数据集库可直接加载eth-sri/smiles-eval测试集，每个样本以字典形式包含instance_id、input描述、output smiles和difficulty_category字段。典型应用场景包括：评估语言模型分子生成准确性，验证约束解码算法效果，或作为分子描述-SMILES转换任务的基准数据集。官方GitHub仓库提供与论文配套的评估代码，支持标准化性能度量。

背景与挑战

背景概述

SMILES-eval数据集是专为评估大型语言模型（LLMs）在化学分子表示生成方面的能力而设计的基准测试工具。该数据集由Gemini 2.5 Pro生成分子描述与SMILES（简化分子线性输入系统）配对数据，并通过rdkit验证分子有效性，确保数据的准确性与唯一性。其核心研究问题聚焦于自然语言描述与化学结构之间的精确转换，为化学信息学与计算药物发现领域提供了重要的评估标准。该数据集在《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》一文中被用于评估扩散模型与上下文无关文法的结合效果，进一步推动了分子生成领域的研究进展。

当前挑战

SMILES-eval数据集面临的主要挑战包括：1）在领域问题层面，化学分子描述的多样性与SMILES表示的精确匹配存在固有难度，尤其是复杂分子的结构转换易受语义歧义影响；2）在数据构建过程中，需严格筛选有效分子并去除重复项，依赖rdkit验证与模糊匹配技术增加了数据清洗的复杂性；3）难度分类依赖于模型自身的生成稳定性，可能引入评估偏差。这些挑战对数据集的可靠性与泛化能力提出了较高要求。

常用场景

经典使用场景

在计算化学与自然语言处理交叉领域，smiles-eval数据集为评估大型语言模型生成SMILES分子表示的能力提供了标准化基准。研究者通过输入自然语言描述的分子结构，验证模型输出符合化学规则的SMILES字符串的准确性，这种评估方式已成为分子表示学习领域的黄金标准。数据集包含不同难度等级的分子描述，能够全面检验模型对复杂化学概念的语义理解能力。

衍生相关工作

基于该数据集衍生的经典研究包括《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》等突破性工作，这些研究通过引入上下文无关文法约束解码策略，显著提升了分子生成的化学有效性。后续研究进一步扩展了评估框架，开发出结合三维分子构象预测的多模态评估体系，推动了分子智能生成技术的快速发展。

数据集最近研究