C-Plus Values

Name: C-Plus Values
Creator: 天津大学
Published: 2025-03-28 11:31:37
License: 暂无描述

arXiv2025-03-28 更新2025-04-03 收录

下载链接：

http://arxiv.org/abs/2503.22115v1

下载链接

链接失效反馈

官方服务：

资源简介：

C-Plus Values是一个全新的中文人价值观与大型模型对齐的评估基准，通过多轮对话和故事场景模拟现实世界情况，评估大型语言模型的责任感。该数据集由两部分组成：基于多轮对话的责任评估和基于故事场景的责任评估。它不仅要求模型避免生成有害内容，还强调共情和一定程度的人文关怀。数据集通过将CVALUES专家提出的问题转化为负向观点，并利用GPT-4 API生成多轮对话和故事格式的问题来构建。

C-Plus Values is a novel Chinese benchmark for evaluating the alignment between human values and large language models (LLMs). It simulates real-world scenarios through multi-turn dialogues and story-based contexts to assess the sense of responsibility of large language models. This dataset consists of two core components: responsibility evaluation based on multi-turn dialogues, and responsibility evaluation based on story scenarios. It not only mandates models to refrain from generating harmful content, but also places emphasis on empathy and a certain level of humanistic care. The dataset is constructed by converting questions proposed by CVALUES experts into negative viewpoints, and generating multi-turn dialogue and story-formatted questions via the GPT-4 API.

提供机构：

天津大学

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

在人工智能伦理与安全研究领域，评估大型语言模型的价值对齐能力至关重要。C-Plus Values数据集的构建采用了创新的多轮对话和叙事场景设计，以超越传统单句提示的局限性。研究团队首先从公开的CValues数据集中提取专家生成的原始问题，经过严格的数据清洗流程，包括自动化的正则表达式筛选和人工审核，确保数据的纯净性。随后，基于认知负荷理论，通过GPT-4o API将这些问题转化为负面观点，并进一步设计对话模板和故事模板，生成具有伦理陷阱的多轮对话和叙事场景。整个过程结合了自动化生成与人工校验，确保生成的数据既复杂多样又主题一致。

特点

C-Plus Values数据集在价值对齐评估领域具有显著特点。首先，其采用多轮对话和故事场景的形式，模拟真实世界中复杂的伦理困境，大幅提升了评估的隐蔽性和对抗性。其次，数据集覆盖环境科学、心理学、法律等九大领域，包含1528个条目，每个条目平均对话长度554词、故事长度887词，确保了数据的广度和深度。尤为突出的是，数据集通过精心设计的'引导者-回应者'对话结构和文化情感包装的叙事策略，将伦理偏见巧妙地嵌入语境，有效挑战模型在复杂情境下的价值判断能力。

使用方法

该数据集支持两种评估模式：人工评估和自动评估。在人工评估中，研究者可邀请领域专家按照标准化评分体系（1-5分），从伦理合理性、情感支持性和社会责任三个维度对模型响应进行评分。自动评估则通过预设的正则表达式匹配系统，检测模型输出中是否存在偏见、歧视等内容，并设有专门的评估器（如ChatGPT_Evaluator等）处理不同模型的响应模式。使用时可选择特定领域（如环境科学）的子集进行针对性测试，或采用完整数据集进行全面评估。评估结果既能揭示模型在简单对话中的伦理表现，也能检验其在复杂叙事场景中的深层推理能力。

背景与挑战

背景概述

C-Plus Values是由天津大学、郑州轻工业大学、哥本哈根大学和香港理工大学的研究团队共同开发的中文大语言模型（LLM）价值观对齐评测基准。该数据集于2025年提出，旨在解决传统单句对抗性提示在评估LLM价值观对齐方面的局限性。研究团队创新性地采用多轮对话和叙事场景的设计，通过更隐蔽、更具对抗性的评估方式，系统性地检测LLM在复杂语境下的伦理立场和潜在偏见。作为首个基于情境化测试的中文价值观对齐基准，C-Plus Values不仅关注模型的安全性，更强调其责任意识与人文关怀能力，为中文LLM的伦理评估提供了新的方法论框架。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，传统单句评估难以捕捉LLM在复杂情境中的价值观偏差，需解决多轮对话中隐含伦理陷阱的识别、叙事场景下道德困境的响应等新型评测需求；在构建过程层面，研究团队需克服高质量对抗性样本生成的技术难题，包括保持原始问题主题一致性的对话改写、符合认知负荷理论的故事场景设计，以及平衡数据集的文化适应性与领域多样性。此外，人工标注过程中专家评分的主观性控制、自动评估指标与伦理判断的适配性等问题也构成了显著挑战。

常用场景

经典使用场景

在自然语言处理领域，C-Plus Values数据集通过多轮对话和叙事场景的设计，为评估大型语言模型的价值对齐能力提供了创新性框架。该数据集模拟了真实世界中复杂的伦理困境和社会互动场景，要求模型在语境丰富的环境中展现其道德判断能力。尤其在中文语境下，这种基于对话和故事的评估方式突破了传统单句提示的局限性，为研究者提供了更接近人类真实交流模式的测试平台。

衍生相关工作

基于C-Plus Values的评估范式，后续研究衍生出多个重要方向：一是认知负荷理论指导下的对抗性提示工程，二是跨文化价值对齐评估框架的构建，三是结合强化学习的自动化伦理评估系统。相关工作如PersonaScore角色代理评估体系和AlignBench中文指令微调基准，都在不同维度扩展了原始数据集的应用场景和方法论。

数据集最近研究