five

smiles-eval

收藏
Hugging Face2025-08-15 更新2025-08-16 收录
下载链接:
https://huggingface.co/datasets/eth-sri/smiles-eval
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于评估大型语言模型(LLM)生成SMILES化学分子表示能力的数据集。它包含了化学分子的自然语言描述和相应的SMILES编码。数据集通过Gemini 2.5 Pro生成描述和SMILES对,经过有效性验证和去重处理。难度等级是根据Gemini 2.5 Pro生成分子的可靠性来划分的。
创建时间:
2025-08-13
原始信息汇总

数据集概述:SMILES eval

数据集基本信息

  • 数据集名称:SMILES eval
  • 下载大小:16,477 bytes
  • 数据集大小:28,147 bytes
  • 测试集样本数:167
  • 测试集大小:28,147 bytes

数据集特征

  • instance_id:字符串类型,表示实例的唯一标识符
  • input:字符串类型,表示分子的自然语言描述
  • output:字符串类型,表示对应的SMILES化学分子表示
  • difficulty_category:字符串类型,表示生成分子的难度等级

数据集用途

  • 用于评估大型语言模型(LLM)从自然语言描述生成SMILES化学分子表示的能力

数据集生成方法

  1. 使用Gemini 2.5 Pro生成分子描述和SMILES对
  2. 过滤标准:
    • 通过rdkit验证分子有效性
    • 确保Gemini能可靠地重新生成分子
    • 使用模糊匹配去除重复项
  3. 难度评估基于Gemini 2.5 Pro生成分子的可靠性

数据集应用

  • 用于论文《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》的评估
  • 相关评估代码可在GitHub仓库中找到:https://github.com/eth-sri/constrained-diffusion

示例实例

json { "instance_id": "smiles_0", "input": "Pyridine, a six-membered aromatic heterocyclic organic compound containing one nitrogen atom, replacing a C-H unit in a benzene ring.", "output": "n1ccccc1", "difficulty_category": "medium" }

使用示例

python from datasets import load_dataset import json

dataset = load_dataset(eth-sri/smiles-eval) for instance in dataset[test]: print(json.dumps(instance, indent=2)) break

搜集汇总
数据集介绍
main_image_url
构建方式
在计算化学与自然语言处理交叉领域,smiles-eval数据集的构建体现了严谨的分子表示与语言描述映射关系。该数据集通过调用Gemini 2.5 Pro模型生成分子描述与SMILES字符串配对,并采用三重验证机制:基于rdkit工具验证分子结构有效性,通过模型自洽性检验确保SMILES可复现性,结合模糊匹配算法消除重复样本。难度分级依据模型生成稳定性自动标注,形成包含167个测试样本的标准化评估集。
特点
该数据集以SMILES分子线性表示为核心特征,每个样本包含自然语言描述、标准SMILES编码及难度分级三元组。实例覆盖从简单芳香烃到复杂杂环化合物的多样性分子结构,难度标签为下游模型性能评估提供细粒度参考。数据经过严格的化学有效性验证,确保分子描述与SMILES编码的精确对应,为语言模型分子生成能力建立可靠基准。
使用方法
通过HuggingFace数据集库可直接加载eth-sri/smiles-eval测试集,每个样本以字典形式包含instance_id、input描述、output smiles和difficulty_category字段。典型应用场景包括:评估语言模型分子生成准确性,验证约束解码算法效果,或作为分子描述-SMILES转换任务的基准数据集。官方GitHub仓库提供与论文配套的评估代码,支持标准化性能度量。
背景与挑战
背景概述
SMILES-eval数据集是专为评估大型语言模型(LLMs)在化学分子表示生成方面的能力而设计的基准测试工具。该数据集由Gemini 2.5 Pro生成分子描述与SMILES(简化分子线性输入系统)配对数据,并通过rdkit验证分子有效性,确保数据的准确性与唯一性。其核心研究问题聚焦于自然语言描述与化学结构之间的精确转换,为化学信息学与计算药物发现领域提供了重要的评估标准。该数据集在《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》一文中被用于评估扩散模型与上下文无关文法的结合效果,进一步推动了分子生成领域的研究进展。
当前挑战
SMILES-eval数据集面临的主要挑战包括:1)在领域问题层面,化学分子描述的多样性与SMILES表示的精确匹配存在固有难度,尤其是复杂分子的结构转换易受语义歧义影响;2)在数据构建过程中,需严格筛选有效分子并去除重复项,依赖rdkit验证与模糊匹配技术增加了数据清洗的复杂性;3)难度分类依赖于模型自身的生成稳定性,可能引入评估偏差。这些挑战对数据集的可靠性与泛化能力提出了较高要求。
常用场景
经典使用场景
在计算化学与自然语言处理交叉领域,smiles-eval数据集为评估大型语言模型生成SMILES分子表示的能力提供了标准化基准。研究者通过输入自然语言描述的分子结构,验证模型输出符合化学规则的SMILES字符串的准确性,这种评估方式已成为分子表示学习领域的黄金标准。数据集包含不同难度等级的分子描述,能够全面检验模型对复杂化学概念的语义理解能力。
衍生相关工作
基于该数据集衍生的经典研究包括《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》等突破性工作,这些研究通过引入上下文无关文法约束解码策略,显著提升了分子生成的化学有效性。后续研究进一步扩展了评估框架,开发出结合三维分子构象预测的多模态评估体系,推动了分子智能生成技术的快速发展。
数据集最近研究
最新研究方向
在化学信息学与自然语言处理的交叉领域,smiles-eval数据集正推动着分子表示生成技术的前沿探索。该数据集通过构建自然语言描述与SMILES字符串间的映射关系,为评估大语言模型在化学结构生成任务上的性能提供了标准化基准。近期研究聚焦于如何结合上下文无关文法的约束解码技术,提升模型生成符合化学规则的SMILES字符串的准确率,相关成果已应用于扩散模型的优化过程中。随着药物发现和材料设计领域对自动化分子生成需求的增长,该数据集在验证生成式AI的化学合理性方面展现出独特价值,其难度分级机制更为模型能力评估提供了细粒度分析维度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作