CQ-Bench

Name: CQ-Bench
Creator: 南加州大学
Published: 2025-04-02 02:54:47
License: 暂无描述

arXiv2025-04-02 更新2025-04-07 收录

下载链接：

https://github.com/uscnlp-lime/CQ-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CQ-Bench是一个专门设计的基准，用于评估LLM在自然对话环境中推断隐性文化价值观的能力。该数据集通过结合世界价值观调查和GlobalOpinions数据集中的价值观，生成了多角色对话式故事。数据集构建过程中包含了严格的验证程序，最终验证中人类与模型的一致性达到98.2%。CQ-Bench包括三个任务：态度检测、价值选择和价值提取，旨在解决LLM在跨文化交流中遇到的问题。

提供机构：

南加州大学

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

CQ-Bench数据集的构建采用了多阶段验证流程，首先基于世界价值观调查（WVS）和GlobalOpinions数据集筛选文化价值陈述，生成包含4-5角色的多轮对话故事。通过GPT-4o进行三重验证：价值融合度检查确保所有预设价值自然融入对话，一致性校验排除角色言行矛盾，隐式性审查将直接表述改写为间接暗示。最终人工验证显示模型与人类标注者达成98.2%的一致性，形成包含政治、宗教、社会等多元主题的500个高质量对话场景。

特点

该数据集的核心特色在于对文化价值的隐式表达建模，通过自然对话而非直白陈述反映价值观差异。其多层级任务设计（态度检测、价值选择、价值提取）系统评估模型从表层语义到深层文化推理的能力。数据覆盖7大文化维度，特别包含‘多重态度’子集以捕捉同一文化群体内的价值分歧。实验表明，即使在仅500样本的微调后，小模型在跨文化推理任务中性能提升超10%，揭示了文化智能的可迁移性。

使用方法

使用CQ-Bench需分三步：首先通过态度检测任务（AD）评估模型识别对话中隐含价值倾向的能力，提供陈述语句和多项选择选项；其次进行价值选择任务（VS），要求模型从干扰项中识别故事反映的精确价值组合；最终执行开放式的价值提取任务（VE），模型需自主归纳跨话题文化价值。建议采用‘总结-分析’思维链提示策略，并注意宗教类任务的性能基准显著低于政治类任务，这反映了当前LLMs的文化认知盲区。

背景与挑战

背景概述

CQ-Bench是由南加州大学、亚马逊AGI和约翰霍普金斯大学的研究团队于2025年提出的文化智能评估基准。该数据集旨在解决大型语言模型（LLMs）在跨文化交互中理解隐含文化价值观的关键挑战。通过整合世界价值观调查（WVS）和GlobalOpinions数据集中的多维文化指标，研究团队构建了包含伦理、宗教、社会和政治等主题的多角色对话故事，并设计了严格的三重验证流程（包含性检查、一致性检查和隐含性检查），最终达到98.2%的人机验证一致性。作为首个专注于隐性文化价值推理的评估框架，CQ-Bench通过态度检测、价值选择和价值提取三个渐进式任务，为LLMs的文化认知能力提供了系统化评估标准，推动了人机交互领域对文化敏感性的量化研究。

当前挑战

CQ-Bench面临的核心挑战体现在两个维度：在领域问题层面，现有LLMs对中性立场（如'既不赞成也不反对'）和程度副词（如'不太常见'与'完全不常见'）的区分能力显著低于人类水平，宗教价值观推理的F1分数较政治价值观低15%；在构建过程层面，数据生成需平衡对话自然性与价值隐含性，GPT-4o在一致性校验中的矛盾检测准确率（87.4%）显著高于其矛盾修正能力，且隐含性改写导致文本平均长度增加79%但语义相似度降低17%。此外，开放式的价值提取任务暴露出小模型在零样本场景下的文化推理缺陷，LLaMA-3.2-3B在该任务中的表现比人工基准低30.2%。

常用场景

经典使用场景

CQ-Bench数据集被设计用于评估大型语言模型（LLMs）在自然对话语境中推断隐含文化价值观的能力。通过多角色对话故事的形式，该数据集涵盖了伦理、宗教、社会和政治等多个主题，为研究文化智能（CQ）提供了丰富的实验材料。其经典使用场景包括模型在跨文化对话中的表现评估，以及文化价值观的隐含表达与识别研究。

解决学术问题

CQ-Bench解决了现有研究中文化价值观评估过于依赖显性表达的问题，填补了LLMs在隐含文化价值观理解能力上的研究空白。通过态度检测、价值观选择和价值观提取三个逐步复杂的任务，该数据集为量化模型的文化智能提供了系统化工具，并揭示了模型在跨文化推理中的局限性，如对中性立场和细微态度区分的困难。

衍生相关工作

该数据集推动了文化感知LLMs的研究方向，衍生出如CultureLLM（Li et al., 2024a）等专注于文化差异建模的工作。其任务设计启发了后续研究对多模态文化价值观评估的探索，而数据构建中的隐式表达验证方法被应用于社交规范挖掘（Fung et al., 2022）等相邻领域。基于CQ-Bench的微调策略也为小模型的知识蒸馏提供了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集