SommBench
收藏arXiv2026-03-13 更新2026-03-14 收录
下载链接:
https://github.com/sommify/sommbench
下载链接
链接失效反馈官方服务:
资源简介:
SommBench是一个多语言基准测试数据集,由专业侍酒师和母语人士合作开发,旨在评估语言模型在侍酒师专业知识领域的表现。数据集包含3024个示例,分为三个主要任务:葡萄酒理论问答(WTQA)、葡萄酒特征补全(WFC)和食物-葡萄酒配对(FWP),涵盖英语、斯洛伐克语、瑞典语、芬兰语、德语、丹麦语、意大利语和西班牙语。数据集的创建过程包括从专业侍酒师考试中提取问题、从零售商网站解析葡萄酒属性以及由侍酒师验证食物-葡萄酒配对。SommBench适用于评估语言模型在跨语言和文化背景下的专业领域知识应用能力,特别是在需要结合感官描述和文化知识的复杂任务中。
SommBench is a multilingual benchmark dataset co-developed by professional sommeliers and native speakers, designed to evaluate the performance of language models in the professional sommelier expertise domain. It contains 3,024 instances divided into three core tasks: Wine Theory Question Answering (WTQA), Wine Feature Completion (WFC), and Food-Wine Pairing (FWP), covering eight languages including English, Slovak, Swedish, Finnish, German, Danish, Italian, and Spanish. The dataset's development pipeline includes extracting questions from professional sommelier certification examinations, parsing wine attributes from retailer websites, and validating food-wine pairings by professional sommeliers. SommBench is suitable for evaluating the ability of language models to apply professional domain knowledge across cross-linguistic and cross-cultural contexts, especially in complex tasks that require the integration of sensory descriptions and cultural knowledge.
提供机构:
斯洛伐克技术大学; sommify; 南丹麦大学
创建时间:
2026-03-13
搜集汇总
数据集介绍

构建方式
在构建SommBench数据集时,研究团队与专业侍酒师紧密合作,确保了数据的专业性和真实性。葡萄酒理论问答任务基于侍酒师认证考试中的真实问题,由专家精心设计题目和干扰项,并通过GPT-4.1进行初步翻译后,由各语言母语者进行人工验证与校正,最终形成了涵盖八种语言的1,024个问题。葡萄酒特征补全任务则从主流零售商网站程序化提取了1,000款葡萄酒的结构化信息,并采用分层掩码策略以评估模型在不同难度下的推理能力。食物与葡萄酒搭配任务由侍酒师亲自创建正负样本对,共包含1,000个专家标注的配对实例,确保了评估的权威性。
特点
SommBench数据集的核心特点在于其多语言性与文化情境的深度融合。该数据集覆盖英语、斯洛伐克语、瑞典语、芬兰语、德语、丹麦语、意大利语和西班牙语八种语言,旨在分离模型的语言能力与专业知识,从而精准评估其跨语言一致性。数据集包含三个互补任务:葡萄酒理论问答测试事实性知识记忆,葡萄酒特征补全评估结构化数据生成能力,而食物与葡萄酒配法则挑战模型在文化情境下的主观判断力。这种设计不仅涵盖了侍酒师专业知识的知识、剖析与搭配三大范畴,更通过平行多语言内容直接衡量模型在不同文化语境中的表现稳定性。
使用方法
使用SommBench数据集时,研究者可通过其标准化的评估框架对语言模型进行系统化测试。对于葡萄酒理论问答任务,模型需根据给定的多选问题生成单一字母答案,评估指标为各语言独立及跨语言平均准确率。葡萄酒特征补全任务要求模型根据部分信息预测缺失的葡萄酒属性,并以结构化JSON格式输出,针对分类属性采用精确匹配、数值属性采用平均绝对百分比误差进行度量。食物与葡萄酒搭配任务则作为二分类问题,模型需判断给定配对是否合适,主要使用马修斯相关系数进行评估以平衡正负样本的权重。最终,SommBench综合分数通过三个任务得分的算术平均计算,为模型提供全方位的侍酒师专业知识能力评估。
背景与挑战
背景概述
随着大语言模型在多语言与文化理解能力评估方面的需求日益增长,由斯洛伐克工业大学、sommify公司及南丹麦大学的研究团队于2026年共同提出了SommBench数据集。该数据集旨在系统评估语言模型在侍酒师专业领域的多语言与文化适应能力,其核心研究问题聚焦于探究模型能否通过纯文本学习准确模拟基于嗅觉与味觉的专家级感官判断,并维持跨语言的事实一致性。SommBench涵盖了葡萄酒理论问答、特征补全及餐酒搭配三大任务,支持包括英语、斯洛伐克语、瑞典语等在内的八种语言,为衡量模型在文化扎根的专业知识上的表现提供了重要基准,对推动多语言模型在专业领域的可靠应用具有显著影响力。
当前挑战
SommBench所解决的领域挑战在于评估语言模型在侍酒师这一深度融合感官体验与文化知识的专业领域中的表现,具体包括模型能否超越文本描述、模拟专家级的感官判断,以及在多语言环境下保持专业知识的一致性。在数据集构建过程中,主要挑战体现在如何将主观的感官属性(如风味、口感)转化为可评估的文本任务,并确保跨语言翻译时专业术语与文化内涵的精确对等。此外,餐酒搭配任务因其高度依赖文化背景与主观经验,在构建平衡且经专家验证的正负样本对时面临较大难度,同时维持八种语言间数据质量与任务难度的一致性也是一项复杂挑战。
常用场景
经典使用场景
在葡萄酒文化与人工智能交叉领域,SommBench数据集为评估大型语言模型在侍酒师专业知识方面的能力提供了标准化测试平台。该数据集通过侍酒师理论问答、葡萄酒特征补全及餐酒搭配三大任务,系统性地衡量模型对多语言文化知识的掌握程度。经典使用场景包括研究模型如何基于文本描述理解感官属性,并检验其在不同语言环境下专业判断的一致性,为跨文化人工智能应用奠定基础。
解决学术问题
SommBench数据集有效解决了语言模型在跨文化专业知识评估中的关键学术问题。它揭示了模型在多语言环境中文化知识表征的不一致性,尤其针对感官描述等主观领域,传统文本训练难以充分捕捉的问题。该数据集通过结构化任务设计,区分了模型的事实记忆能力与专业级推理能力,为研究语言与文化表征的交互机制提供了实证基础,推动了多语言人工智能在专业领域的评估范式发展。
衍生相关工作
SommBench的发布催生了一系列围绕文化感知人工智能的研究工作。例如,基于其多语言评估框架,后续研究扩展至咖啡、茶艺等感官密集型领域,形成了跨文化专业评估的通用方法论。同时,该数据集启发了对语言模型中文化神经元分离机制的研究,以及针对专业领域知识跨语言一致性的微调技术探索,为构建全球适应性更强的专业人工智能系统提供了重要参考。
以上内容由遇见数据集搜集并总结生成



