TAAROFBENCH

github2025-09-03 更新2025-09-23 收录

下载链接：

https://github.com/niktaas/TAAROFBENCH

下载链接

链接失效反馈

官方服务：

资源简介：

TAAROFBENCH是第一个评估大型语言模型在波斯礼仪taarof上的基准数据集。taarof是伊朗互动中的一种社会规范，代表了一个复杂的仪式礼貌体系，强调尊重、谦逊和间接性。该数据集将taarof构建为一个结构化的计算任务，包含450个角色扮演场景，涵盖12个互动主题（如支付、礼物、用餐、赞美）和3种社交设置（正式、社交、随意）。场景分为两类：taarof预期（taarof是文化上适当的回应）和非taarof（taarof不被期望或不适当）。每个场景包含设置、主题、类型、环境、用户角色、LLM角色、上下文、话语和注释等字段。

TAAROFBENCH is the first benchmark dataset designed for evaluating large language models (LLMs) on Persian taarof, a core social norm in Iranian interpersonal interactions that embodies a complex system of ritual politeness centered on respect, humility, and indirectness. This dataset formalizes taarof as a structured computational task, containing 450 role-play scenarios covering 12 interaction topics (e.g., payment, gift-giving, dining, compliments) across 3 social settings: formal, social, and casual. The scenarios are categorized into two groups: taarof-expected scenarios, in which taarof constitutes a culturally appropriate response, and non-taarof scenarios, where taarof is either not expected or considered culturally inappropriate. Each scenario includes the following fields: setting, topic, type, environment, user role, LLM role, context, utterance, and annotation.

创建时间：

2025-09-01

原始信息汇总

TAAROFBENCH 数据集概述

数据集简介

TAAROFBENCH是首个用于评估大型语言模型在taarof（伊朗互动中的一种社会规范）表现上的基准测试。该基准测试代表了一种复杂的仪式性礼貌体系，强调尊重、谦逊和间接性。该数据集在论文《We Politely Insist: Your LLM Must Learn the Persian Art of Taarof》中提出，该论文已被EMNLP 2025主会议接收。

数据集内容

TAAROFBENCH数据集将taarof操作化为结构化计算任务，包含450个角色扮演场景，涵盖12个互动主题（如支付、礼物、用餐、赞美）和3种社交环境（正式、社交、随意）。场景分为两类：

taarof-expected：taarof是文化上适当回应的情境
non-taarof：taarof不被期望或不适当的情境

数据结构

每个场景包含以下字段：

Setting：互动背景（随意、社交或正式）
Topic：互动类型（如支付、邀请、提供帮助、礼物、借贷）
Type：taarof在文化上是否被期望（taarof-expected）或不适当（non-taarof）
Environment：物理或情境设置（如婚礼、汽车、大学）
User Role：发起说话者的角色（说话者A）
LLM Role：分配给模型的角色（说话者B）
Context：构架互动的简短情境描述
Utterance：用户提供的开始角色扮演的对话轮次（说话者A）
Annotations：描述适当回应的文化期望（如"期望你坚持支付"）

评估结果

在TAAROFBENCH上评估了五个最先进的LLM，并与人类基线进行比较。模型在taarof不被期望时表现良好，但在需要taarof时表现显著困难。

模型	Taarof-Expected	Non-Taarof	总体
GPT-4o	33.8%	91.4%	52.4%
Claude 3.5	36.5%	84.2%	52.0%
DeepSeek V3	36.6%	92.8%	56.2%
Dorna（波斯语LLM）	40.7%	76.2%	52.2%
Llama-3-8B	41.7%	82.0%	54.8%
Llama-3-8B + SFT	58.9%	77.7%	63.8%
Llama-3-8B + DPO	79.4%	70.3%	77.1%
人类（母语者）	81.8%	90.9%	84.8%

引用信息

如果使用此数据集，请引用我们的论文：

bibtex @inproceedings{gohari2025taarofbench, title = {We Politely Insist: Your LLM Must Learn the Persian Art of Taarof}, author = {Nikta Gohari Sadr and Sahar Heidariasl and Karine Megerdoomian and Laleh Seyyed-Kalantari and Ali Emami}, booktitle = {Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing}, year = {2025} }

搜集汇总

数据集介绍

构建方式

TAAROFBENCH数据集的构建基于对伊朗社会规范taarof的系统化建模，将这一复杂的礼仪体系转化为结构化计算任务。该数据集包含450个角色扮演场景，涵盖支付、礼物、用餐等12个互动主题，并区分正式、社交和随意三种社交环境。每个场景被明确标注为taarof预期或非taarof类型，通过文化专家对场景背景、参与者角色和对话语境进行精细标注，确保数据的社会语言学有效性。

特点

该数据集的核心特点在于其文化情境的细粒度划分，每个场景均包含社交环境、话题类型、文化预期等多维元数据。通过区分taarof预期与非taarof场景，数据集精准捕捉了波斯礼仪中间接性与直接性的动态平衡。独特的环境字段设计（如婚礼、大学等具体场景）与角色定位机制，为模型理解文化语境提供了丰富的语义框架。

使用方法

使用该数据集时，研究人员可通过evaluation模块调用GPT-4作为外部评估器，对LLM在波斯礼仪场景中的响应进行自动化评判。adaptation模块提供监督微调与直接偏好优化的完整流程，支持在Predibase和Unsloth平台进行模型优化。数据集采用标准化的JSON结构，支持通过pandas和datasets库直接加载，便于开展跨文化语言能力评估研究。

背景与挑战

背景概述

TAAROFBENCH作为首个专门评估大语言模型在伊朗社交礼仪taarof表现能力的基准数据集，由Nikta Gohari Sadr等学者于2025年EMNLP主会议上正式提出。taarof作为波斯文化中独特的仪式性礼貌体系，强调间接表达、谦逊与尊重的复杂社交互动规范，该数据集的建立填补了跨文化自然语言处理研究的空白。通过450个涵盖12类生活场景的角色扮演对话，该数据集将抽象的文化习俗转化为可计算的结构化任务，为探索语言模型的文化适应性提供了重要实验平台。

当前挑战

该数据集核心挑战在于如何将高度依赖语境的文化隐式规则转化为机器可理解的显式任务。具体而言，taarof场景中微妙的社会层级差异与语境敏感性要求模型具备深度推理能力，而现有模型在taarof预期场景中的表现显著落后于非taarof场景，揭示出模型对文化潜规则的理解局限。数据构建过程中，研究者需克服文化特定性标注的困难，通过本土专家的协同标注确保场景分类与语境描述的准确性，同时平衡形式化与非形式化场景的多样性以维持生态效度。

常用场景

经典使用场景

在跨文化自然语言处理研究中，TAAROFBENCH作为首个专门评估大语言模型对波斯礼仪规范taarof理解能力的基准数据集，其经典使用场景聚焦于模拟伊朗社会互动中的仪式性礼貌行为。该数据集通过450个角色扮演情境，覆盖支付、赠礼、宴请等12个主题，在正式、社交、休闲三种社会设置下，系统化测试模型对谦逊、委婉、间接表达等文化特质的响应能力。研究者通过对比模型在taarof预期与非taarof情境中的表现，可量化分析模型对复杂文化语境的适应性。

解决学术问题

TAAROFBENCH有效解决了当前大语言模型在非西方文化语境下面临的泛化能力不足问题。传统模型训练数据多偏向英语文化范式，难以捕捉如taarof这类高度依赖文化背景的交互规则。该数据集通过结构化标注文化期望与情境参数，为量化评估模型的跨文化交际能力提供标准框架，推动了语言模型文化适应性研究的范式转型，填补了波斯语社会语言学计算化研究的空白。

衍生相关工作

TAAROFBENCH已催生多项跨文化语言模型优化研究。原论文中采用监督微调与直接偏好优化技术对Llama-3-8B进行适配，使模型在taarof预期场景的准确率从41.7%提升至79.4%。后续研究进一步探索了多模态文化信号融合、低资源语言迁移学习等方向，为构建具有文化意识的大语言模型提供了方法论基础，并启发了针对其他地域性社交礼仪的基准构建工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集