MasalBench

Name: MasalBench
Creator: 德黑兰大学·工程学院电气与计算机工程学院; 哈塔姆大学·德黑兰高等研究院
Published: 2026-01-30 01:49:44
License: 暂无描述

arXiv2026-01-30 更新2026-02-02 收录

下载链接：

https://github.com/kalhorghazal/MasalBench

下载链接

链接失效反馈

官方服务：

资源简介：

MasalBench是由德黑兰大学和哈塔姆大学联合构建的波斯谚语理解基准数据集，包含1700条精心设计的测试条目。该数据集源自权威著作《Foote Koozegari》中4000余条波斯谚语，经人工筛选1000条高频谚语构建上下文理解任务（对话形式多选题），并基于文化等效性生成700条英谚配对任务。数据通过Gemini 2.5 Pro半自动生成后经母语学者严格校验，同时涵盖字面陷阱、合理干扰项等设计。该数据集专为评估大模型在低资源语言中的隐喻理解、文化迁移等能力而设计，填补了波斯语文化认知评估工具的空白。

MasalBench is a Persian proverb understanding benchmark dataset jointly developed by the University of Tehran and Hatam University, consisting of 1700 carefully curated test items. The dataset is derived from over 4000 Persian proverbs in the authoritative work *Foote Koozegari*: 1000 high-frequency proverbs were manually selected to construct context comprehension tasks (dialogue-based multiple-choice questions), and 700 English proverb matching tasks were generated based on cultural equivalence principles. The data was semi-automatically generated via Gemini 2.5 Pro, then rigorously validated by native-speaking scholars, and also incorporates designs such as literal traps and plausible distractors. This dataset is specifically designed to evaluate the capabilities of large language models (LLMs) in metaphor comprehension and cultural transfer within low-resource languages, filling the gap in Persian cultural cognitive assessment tools.

提供机构：

德黑兰大学·工程学院电气与计算机工程学院; 哈塔姆大学·德黑兰高等研究院

创建时间：

2026-01-30

原始信息汇总

MasalBench数据集概述

数据集简介

MasalBench是一个用于评估大型语言模型对波斯谚语进行上下文和跨文化理解能力的基准数据集。

数据集目的

该数据集旨在评估多语言大型语言模型在低资源语言（波斯语）中，对作为会话关键组成部分的波斯谚语的理解能力，特别是其上下文理解与跨文化理解性能。

关键特征

评估焦点：评估模型对波斯谚语的上下文理解和跨文化理解。
语言背景：针对低资源语言波斯语。
核心任务：
1. 在上下文中识别波斯谚语。
2. 识别与波斯谚语对应的英文谚语（跨文化等效识别）。

基准测试结果摘要（基于原论文）

上下文识别性能：所评估的八个最先进的大型语言模型在上下文中识别波斯谚语表现良好，准确率高于0.90。
跨文化理解性能：模型在识别等效英文谚语任务上表现显著下降，最佳模型的准确率为0.79。
主要发现：当前大型语言模型在文化知识和类比推理方面存在局限性。

相关论文

标题：MasalBench: A Benchmark for Contextual and Cross-Cultural Understanding of Persian Proverbs in LLMs
核心贡献：为评估其他低资源语言的跨文化理解提供了一个评估框架。

搜集汇总

数据集介绍

构建方式

在构建MasalBench数据集的过程中，研究团队从权威的波斯谚语典籍《Foote Koozegari: Persian Proverbs and Their Stories》中提取了超过4000条波斯谚语及其释义，并利用Gemini 2.5 Pro模型进行自动化处理。通过人工筛选，最终确定了1000条在伊朗文化中广泛使用且为人熟知的谚语作为基础。针对语境理解任务，研究团队设计了包含自然对话的语境，并生成了三种精心构造的干扰选项：字面陷阱、合理但错误的解释以及无关解释。对于跨文化理解任务，则通过模型生成与波斯谚语语义等效的英语谚语及表面相似但语义无关的干扰项，最终形成了包含1000道多项选择题和700道二项选择题的综合性评测基准。

使用方法

MasalBench数据集主要用于评估多语言大语言模型对波斯谚语的理解能力。在使用时，研究者可采用零样本提示的方式，将数据集中的对话语境及选择题直接输入模型，要求模型输出正确选项的字母标识。对于语境理解任务，模型需在给定对话中推断说话者使用谚语的意图；对于跨文化理解任务，则需从两个英语谚语中识别出与给定波斯谚语语义等效的选项。评测过程中需固定随机种子以确保结果可复现，并限制模型仅输出选项字母以避免额外文本干扰。该数据集为系统分析模型在低资源语言文化知识、隐喻推理及跨语言类比能力方面的表现提供了标准化工具。

背景与挑战

背景概述

随着多语言大语言模型在日常生活中的广泛应用，其对话语言理解能力成为关键研究议题。波斯语作为低资源语言，蕴含丰富的谚语文化，但在现有评估体系中长期受到忽视。MasalBench由德黑兰大学和Khatam大学的研究团队于2026年提出，旨在系统评估大语言模型对波斯谚语的语境理解与跨文化对应能力。该数据集包含1700道题目，通过对话形式与跨文化配对任务，深入探究模型在低资源语言中的隐喻推理与文化知识迁移表现，为低资源语言理解研究提供了重要基准。

当前挑战

MasalBench所针对的核心领域挑战在于低资源语言中比喻性语言的深度理解与跨文化知识对齐。具体而言，模型在识别波斯谚语语境含义时表现良好，但在匹配英文等效谚语时准确率显著下降，这揭示了现有模型在文化背景知识与类比推理能力上的局限。数据构建过程中，研究者面临双重困难：一是从图像格式的文献中自动化提取并验证谚语数据的准确性，二是为波斯谚语寻找语义贴切且文化对应的英文等效表达，这要求精细的人工审核与文化敏感性，以确保评估任务的有效性与可靠性。

常用场景

经典使用场景

在低资源语言处理领域，MasalBench作为一项专门针对波斯谚语理解的基准测试，其经典使用场景聚焦于评估多语言大语言模型在语境中的隐喻推理能力。通过构建包含1000道选择题的对话数据集，该基准要求模型在自然对话中识别说话者使用波斯谚语的意图，从而检验模型对非英语文化中习语表达的上下文适应性。这种设计不仅模拟了真实交流情境，还揭示了模型在处理低资源语言时对语义连贯性的把握程度。

解决学术问题

MasalBench主要解决了多语言大语言模型在低资源语言文化理解方面的评估空白问题。传统研究往往集中于英语等高资源语言的比喻性语言分析，而忽略了像波斯语这类资源匮乏但文化丰富的语言。该数据集通过系统化构建语境理解和跨文化等价性任务，为量化模型的文化知识与类比推理能力提供了可靠框架。其意义在于推动了跨语言人工智能向更包容、更深入的文化感知方向发展，并为后续低资源语言基准的建立奠定了方法论基础。

实际应用

在实际应用层面，MasalBench能够指导开发更适应多元文化环境的智能对话系统。例如，在波斯语地区的客户服务、教育辅助或内容本地化场景中，模型对谚语的准确理解可显著提升交流的自然度与亲和力。此外，该基准的跨文化等价性任务有助于优化机器翻译系统，使其在习语转换时保留文化内涵，从而改善跨语言信息传递的准确性。这些应用直接促进了人工智能技术在全球化背景下的实用性与可及性。

数据集最近研究