Nunchi-Bench

arXiv2025-07-05 更新2025-07-09 收录

下载链接：

https://github.com/koreankiwi99/Nunchi-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Nunchi-Bench 是一个用于评估大型语言模型 (LLMs) 文化理解和推理能力的基准数据集，专注于韩国的迷信。数据集包含 247 个问题，涵盖了 31 个主题，评估了模型对韩国迷信的事实知识、文化适宜性建议和情境解释能力。数据集包括三种类型的任务：多项选择题 (MCQs) 评估对韩国迷信的事实知识；陷阱问题评估模型在文化敏感情境中提供适宜建议的能力；解释问题检验模型是否能够从社交互动中推断文化意义。Nunchi-Bench 同时提供韩文和英文版本，以促进多语言模型的评估。此外，对于陷阱和解释任务，还提供了明确指定或省略韩国文化背景的版本。该数据集旨在帮助研究人员评估和改进 LLMs 在跨文化环境中的表现，特别是在处理文化情境时。

Nunchi-Bench is a benchmark dataset designed to evaluate the cultural understanding and reasoning capabilities of Large Language Models (LLMs), with a particular focus on Korean superstitions. The dataset comprises 247 questions spanning 31 distinct topics, and assesses models' factual knowledge of Korean superstitions, capacity to provide culturally appropriate advice, and skills in contextual interpretation. The dataset includes three task categories: Multiple Choice Questions (MCQs) for evaluating factual knowledge of Korean superstitions; trap questions for testing the model's ability to deliver suitable advice in culturally sensitive scenarios; and explanation questions that examine whether the model can infer cultural meanings from social interactions. Nunchi-Bench is offered in both Korean and English versions to support the evaluation of multilingual models. Furthermore, versions with explicitly specified or omitted Korean cultural contexts are provided for the trap and explanation tasks. This dataset is intended to help researchers evaluate and improve the performance of LLMs in cross-cultural settings, particularly when engaging with cultural contexts.

提供机构：

洛桑联邦理工学院 (EPFL) 和首尔国立大学 (SNU)

创建时间：

2025-07-05

原始信息汇总

Nunchi-Bench数据集概述

数据集基本信息

数据集名称：Nunchi-Bench
托管平台：GitHub

数据集描述

（注：根据提供的README内容，该数据集详情页未包含具体描述信息）

搜集汇总

数据集介绍

构建方式

Nunchi-Bench数据集的构建过程体现了系统性和严谨性。研究团队首先通过文献调研和新闻分析收集了韩国普遍存在的迷信现象，涵盖了传统与现代的多元内容。为确保迷信主题的代表性，研究人员对33名韩国年轻人进行了填空测试，最终筛选出认知度超过50%的31个主题。在问题设计阶段，团队创新性地开发了三种任务类型：多选题用于评估基础文化知识，陷阱问题测试文化敏感场景中的建议能力，解释问题则考察文化语境推理能力。每个问题都经过三位在韩居住十年以上的评估者进行文化相关性验证，最终247个问题通过质量检验，确保了数据集的信效度。

使用方法

使用Nunchi-Bench进行模型评估需要遵循其特有的分层评估协议。对于多选题部分，直接比对模型输出与标准答案即可计算准确率；而陷阱问题和解释问题的评估则需要采用专门的评分体系，重点关注模型对文化差异的识别和对特定迷信的关联能力。研究者可采用GPT-4 Turbo作为自动评估器，通过多阶段提示优化使机器评分与人类判断保持高度一致（陷阱问题90%，解释问题88.3%）。数据集支持零样本评估模式，建议采用贪婪解码策略（temperature=0）确保结果可比性。对于开放性问题，需特别关注模型是否产生文化相关的错误信息（-1分情况），这种细粒度评估能有效揭示模型在跨文化场景中的潜在风险。

背景与挑战

背景概述

Nunchi-Bench是由EPFL（洛桑联邦理工学院）和首尔国立大学的研究人员于2025年推出的一个基准测试数据集，专注于评估大型语言模型（LLMs）在文化推理方面的能力，特别是针对韩国迷信文化的理解。该数据集包含247个问题，涵盖31个主题，旨在测试模型对文化背景的敏感性、文化知识的应用能力以及情境解释能力。Nunchi-Bench的推出填补了现有基准测试在文化推理方面的空白，为多语言模型在跨文化环境中的表现提供了重要评估工具。

当前挑战

Nunchi-Bench面临的挑战主要包括两个方面：1) 领域问题的挑战：大型语言模型在文化推理方面表现不佳，尤其是在实际场景中应用文化知识时存在困难。例如，模型可能在选择题中回答正确，但在需要提供文化敏感建议的情境中表现不佳。2) 构建过程中的挑战：数据集的构建需要收集和验证大量韩国迷信文化相关的知识，并设计多种问题类型（如选择题、陷阱问题和解释问题）以全面评估模型的能力。此外，确保问题的文化相关性和语言多样性（韩语和英语版本）也是构建过程中的重要挑战。

常用场景

经典使用场景

Nunchi-Bench数据集在评估大型语言模型（LLMs）的文化敏感性和推理能力方面具有经典应用场景。该数据集专注于韩国迷信文化，通过247个问题覆盖31个主题，旨在测试模型对文化背景的理解和应用能力。研究者和开发者可以利用这一数据集来验证模型在多文化环境中的表现，特别是在需要文化敏感性的场景下，如心理咨询、法律咨询等专业领域。

解决学术问题

Nunchi-Bench解决了LLMs在文化推理方面的关键学术问题。传统上，LLMs在跨文化理解和应用方面表现不佳，尤其是在处理文化特定的迷信和习俗时。该数据集通过多类型问题（如多选题、陷阱问题和解释问题）系统评估模型的文化知识获取和应用能力，填补了现有研究在文化敏感性和实际应用之间的空白。

实际应用

在实际应用中，Nunchi-Bench为开发跨文化AI助手提供了重要工具。例如，在全球化背景下，企业可以利用该数据集优化其AI助手，使其能够更好地理解和适应用户的文化背景，从而提供更精准和贴心的服务。此外，教育领域也可利用该数据集培养学生的跨文化沟通能力。

数据集最近研究