TAAROFBENCH
收藏TAAROFBENCH 数据集概述
数据集简介
TAAROFBENCH是首个用于评估大型语言模型在taarof(伊朗互动中的一种社会规范)表现上的基准测试。该基准测试代表了一种复杂的仪式性礼貌体系,强调尊重、谦逊和间接性。该数据集在论文《We Politely Insist: Your LLM Must Learn the Persian Art of Taarof》中提出,该论文已被EMNLP 2025主会议接收。
数据集内容
TAAROFBENCH数据集将taarof操作化为结构化计算任务,包含450个角色扮演场景,涵盖12个互动主题(如支付、礼物、用餐、赞美)和3种社交环境(正式、社交、随意)。场景分为两类:
- taarof-expected:taarof是文化上适当回应的情境
- non-taarof:taarof不被期望或不适当的情境
数据结构
每个场景包含以下字段:
- Setting:互动背景(随意、社交或正式)
- Topic:互动类型(如支付、邀请、提供帮助、礼物、借贷)
- Type:taarof在文化上是否被期望(taarof-expected)或不适当(non-taarof)
- Environment:物理或情境设置(如婚礼、汽车、大学)
- User Role:发起说话者的角色(说话者A)
- LLM Role:分配给模型的角色(说话者B)
- Context:构架互动的简短情境描述
- Utterance:用户提供的开始角色扮演的对话轮次(说话者A)
- Annotations:描述适当回应的文化期望(如"期望你坚持支付")
评估结果
在TAAROFBENCH上评估了五个最先进的LLM,并与人类基线进行比较。模型在taarof不被期望时表现良好,但在需要taarof时表现显著困难。
| 模型 | Taarof-Expected | Non-Taarof | 总体 |
|---|---|---|---|
| GPT-4o | 33.8% | 91.4% | 52.4% |
| Claude 3.5 | 36.5% | 84.2% | 52.0% |
| DeepSeek V3 | 36.6% | 92.8% | 56.2% |
| Dorna(波斯语LLM) | 40.7% | 76.2% | 52.2% |
| Llama-3-8B | 41.7% | 82.0% | 54.8% |
| Llama-3-8B + SFT | 58.9% | 77.7% | 63.8% |
| Llama-3-8B + DPO | 79.4% | 70.3% | 77.1% |
| 人类(母语者) | 81.8% | 90.9% | 84.8% |
引用信息
如果使用此数据集,请引用我们的论文:
bibtex @inproceedings{gohari2025taarofbench, title = {We Politely Insist: Your LLM Must Learn the Persian Art of Taarof}, author = {Nikta Gohari Sadr and Sahar Heidariasl and Karine Megerdoomian and Laleh Seyyed-Kalantari and Ali Emami}, booktitle = {Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing}, year = {2025} }




