Olfactory Perception (OP) Benchmark
收藏github2026-04-03 更新2026-04-14 收录
下载链接:
https://github.com/Satarifard/Olfactory-Perception-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
一个全面的基准数据集,用于评估大型语言模型是否能够推理气味。该基准包含1,010个问题,涵盖八个任务类别,每个问题以两种提示格式(SMILES和化合物名称)呈现,便于直接比较分子表示。
A comprehensive benchmark dataset designed to evaluate whether large language models (LLMs) can perform olfactory reasoning. This benchmark comprises 1,010 questions spanning eight task categories, where each question is presented in two prompt formats: SMILES and compound names, to facilitate direct comparison of molecular representations.
创建时间:
2026-04-03
原始信息汇总
Olfactory Perception (OP) Benchmark 数据集概述
数据集简介
Olfactory Perception (OP) Benchmark 是一个用于评估大语言模型是否能够进行嗅觉推理的综合基准。该基准包含 1,010 个问题,涵盖八个任务类别,每个问题以两种提示格式(SMILES 和化合物名称)呈现,便于直接比较分子表示。
基准结构概览
| 类别 | 问题数量 | 难度 | 任务类型 |
|---|---|---|---|
| 气味分类 (OC) | 175 | 简单 | 二元:有气味 / 无气味 |
| 主要气味描述符 (POD) | 175 | 简单 | 四选一多项选择 |
| 气味强度 (OIn) | 175 | 简单 | 成对比较 + 评级 |
| 气味愉悦度 (OPl) | 175 | 简单 | 成对比较 + 评级 |
| 适用性全评分 (RATA) | 100 | 中等 | 从 138 个描述符中进行多标签选择 |
| 混合物气味相似性 (OS) | 100 | 中等 | 4 点量表 + 距离 |
| 嗅觉受体激活 (ORA) | 80 | 困难 | 多标签受体选择 |
| 气味识别测试 (SIT) | 30 | 困难 | 从混合物中进行四选一识别 |
数据格式与内容
- 每个问题以两种提示格式呈现:
- 提示 1: 异构 SMILES 表示法
- 提示 2: 常见化合物名称
- 真实答案来源于已建立的嗅觉科学数据集和资源。
- 主基准文件为
OP_Benchmark.csv,包含以下列:question_ID:唯一问题标识符compound.name_1/compound.name_2:化合物名称SMILES_1/SMILES_2:异构 SMILES 字符串OPTIONS:答案选项(分号分隔)question_category:任务类别prompt.1:基于 SMILES 的提示prompt.2:基于化合物名称的提示answer:真实答案other_info:其他元数据
评估模型
基准评估了来自 6 个提供商的 21 种模型配置:
- 闭源模型: OpenAI (GPT-5, GPT-5 Pro, GPT-5.2 Pro, GPT-OSS-120B, o3, o4-mini)、Anthropic (Claude Sonnet 4.5, Claude Opus 4.5, Claude Opus 4.6)、Google (Gemini 2.5 Pro)、xAI (Grok 3 Mini, Grok 4.1 Fast)
- 开源模型: DeepSeek (DeepSeek Reasoner)、Meta (Llama 3.3 70B Instruct)
关键结果
- 最佳总体准确率:Claude Opus 4.6 (max) 达到 64.3%(化合物名称提示)
- 化合物名称提示的表现始终优于 SMILES 提示,高出 3 到 19 个百分点(平均高出 8 个百分点),表明大语言模型主要通过词汇关联而非结构分子推理来获取嗅觉知识。
- 简单任务准确率最高可达 92%(气味分类);中等难度任务更具挑战性(RATA 最佳:42.2%,气味相似性最佳:35%)。
- 扩展推理预算能带来一致但有限的增益(最高约 2 个百分点)。
- 有 119 个问题(12%)被所有 21 个模型错误回答。
评估指标
- 单答案任务 (OC, POD, OIn, OPl, OS, SIT): 任意重叠准确率
- 多答案任务 (RATA, ORA): 多标签 F1 分数
- 连续一致性 (强度、愉悦度、相似性): 与人类心理物理测量的皮尔逊相关性
- 总体准确率: 所有任务类别的未加权平均值
数据来源
| 任务 | 来源 |
|---|---|
| 气味分类 | Mayhew et al., PNAS 2022 |
| 主要气味描述符 | IFRA Fragrance Ingredient Glossary (FIG) 2020 |
| 强度 / 愉悦度 | Keller et al., Science 2017 (DREAM Challenge) |
| RATA | Lee et al., Science 2023 (Principal Odor Map / GS-LF) |
| 气味相似性 | Snitz et al., PLoS Comp Bio 2013; Bushdid et al., Science 2014; Ravia et al., Nature 2020 |
| 受体激活 | Lalis et al., Nucleic Acids Research 2024 (M2OR database) |
| 气味识别 | Leibniz-LSB@TUM Odorant Database |
引用
Eftychia Makri, Nikolaos Nakis, Laura Sisson, Gigi Minsky, Leandros Tassiulas, Vahid Satarifard, Nicholas A. Christakis Benchmark for Assessing Olfactory Perception of Large Language Models. arxiv (2026)
搜集汇总
数据集介绍

构建方式
嗅觉感知基准数据集构建于严谨的嗅觉科学基础之上,其核心问题来源于多个权威的嗅觉研究数据集与资源。构建过程首先从已发表的科学文献与专业数据库中系统收集原始数据,涵盖气味分类、主要气味描述符、强度与愉悦度评分、受体激活等多个维度。每个问题均经过精心设计,确保其科学准确性,并统一转化为两种提示格式:异构SMILES化学表示法与常见化合物名称,以支持不同分子表征方式的直接比较。最终,通过整合脚本将来自八个任务类别的一千零一十个问题汇编成结构化的基准测试集,为评估大语言模型的嗅觉推理能力提供了标准化框架。
特点
该数据集以其全面性与多层次的任务设计而著称,系统性地覆盖了从简单到复杂的八类嗅觉感知任务,包括气味分类、主要气味描述符识别、强度与愉悦度评估等,难度梯度分明。一个显著特点是每个问题均提供SMILES字符串和化合物名称两种输入格式,这为深入探究模型是基于分子结构还是词汇关联进行嗅觉推理提供了独特视角。数据集规模适中,包含一千余个问题,并附有详尽的元数据与真实答案,其真实答案均根植于既有的嗅觉科学共识,确保了评估的可靠性与科学性。
使用方法
使用该数据集进行模型评估时,研究人员需加载主基准文件‘OP_Benchmark.csv’,该文件包含了所有问题、两种提示格式及标准答案。评估过程通过调用各模型提供商(如OpenAI、Anthropic等)的专用Jupyter笔记本脚本实现,脚本中已集成API调用、速率限制与重试逻辑。用户需配置相应的API密钥,并指定输入文件路径,运行脚本即可自动执行评估并生成结果CSV文件。评估指标根据任务类型而异,包括准确率、多标签F1分数以及与人类感知数据的相关性分析,从而全面量化模型在嗅觉感知任务上的性能。
背景与挑战
背景概述
嗅觉感知基准(OP Benchmark)是2026年由Eftychia Makri、Nikolaos Nakis等研究人员提出的一项综合性评估框架,旨在系统检验大语言模型对嗅觉信息的推理能力。该基准涵盖八个任务类别,共计1010个问题,每个问题均采用SMILES分子式和化合物名称两种提示格式呈现,其核心研究问题聚焦于探索大语言模型能否超越文本关联,真正理解分子结构与嗅觉感知之间的复杂映射关系。该数据集的构建整合了多个权威嗅觉科学资源,如DREAM挑战赛数据和M2OR数据库,为计算嗅觉与人工智能的交叉研究提供了首个标准化评估工具,推动了模型在化学感知领域的能力边界探索。
当前挑战
该数据集旨在解决大语言模型在嗅觉感知推理这一新兴领域的评估空白,其核心挑战在于如何跨越分子表征与感官体验之间的语义鸿沟。具体而言,任务设计需涵盖从简单的气味分类到复杂的混合物识别等多层次认知要求,同时确保地面真值源自人类心理物理学实验,以维持生态效度。在构建过程中,研究人员面临多重挑战:一是异构数据源的整合与标准化,需将来自不同实验范式、测量尺度的嗅觉数据集统一为一致的基准格式;二是提示工程的设计,需平衡SMILES符号的结构化信息与化合物名称的语义信息,以区分模型的分子推理能力与词汇记忆效应;三是评估指标的制定,需针对多标签选择、连续评分等多样化答案类型设计公平且可比的性能度量标准。
常用场景
经典使用场景
在嗅觉科学和计算化学的交叉领域,Olfactory Perception Benchmark 的经典使用场景是系统评估大型语言模型在嗅觉感知任务中的推理能力。该数据集通过八类任务,涵盖从简单的气味分类到复杂的嗅觉受体激活预测,为研究者提供了一个标准化测试平台。模型在两种分子表示形式下的表现对比,揭示了其知识获取途径,成为探索人工智能化学感知边界的关键工具。
实际应用
在实际应用层面,该数据集可指导嗅觉相关产品的智能化开发,例如香水配方设计、环境气味监控及食品风味优化。通过评估模型对气味描述符、愉悦度和相似性的预测准确性,能够辅助研发人员快速筛选或模拟化合物,减少传统实验的试错成本。其在多语言描述符上的扩展,也为全球化产品适配提供了技术支持。
衍生相关工作
该数据集已衍生出多项经典研究工作,包括基于其任务框架的模型能力对比分析、分子表示学习对嗅觉预测的影响探究,以及跨模态嗅觉知识迁移方法的开发。部分研究进一步利用其提供的受体激活数据,构建了嗅觉信号传导的计算模型,推动了神经科学与人工智能的融合,为嗅觉数字化图谱的构建奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



