Value Portrait

Name: Value Portrait
Creator: 首尔国立大学数据科学研究生院
Published: 2025-05-02 13:26:50
License: 暂无描述

arXiv2025-05-02 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.01015v1

下载链接

链接失效反馈

官方服务：

资源简介：

Value Portrait是一个用于评估大型语言模型（LLM）价值取向的可靠框架。该数据集包含520个独特的查询-响应对，每个都标注了15个心理维度（10个Schwartz价值观和5个五大人格特质）。数据集的建设过程包括从人类-LLM交互数据集中提取查询，使用GPT-4o生成响应，然后由人类参与者根据响应与自身想法的相似程度进行标注。该数据集旨在解决现有基准中存在的价值相关偏差问题，并为理解LLM在真实世界场景中的价值取向提供依据。

提供机构：

首尔国立大学数据科学研究生院

创建时间：

2025-05-02

搜集汇总

数据集介绍

构建方式

Value Portrait数据集通过三个关键步骤构建：查询构建、响应生成和价值标注。首先，从ShareGPT、LMSYS-Chat-1M、Reddit和Dear Abby等来源提取真实的人类-LLM和人类-人类交互查询。接着，使用GPT-4o为每个查询生成多个不同视角的响应。最后，通过Prolific平台招募参与者，基于其与自身思维的相似性对响应进行评分，并通过与Schwartz基本价值观问卷（PVQ-21）的相关性分析，确定每个查询-响应对的价值相关性。

特点

Value Portrait数据集具有两大核心特点：首先，其查询-响应对均源自真实的人类-LLM交互场景，确保了评估结果的生态效度；其次，通过心理测量学验证方法，每个项目均标注了与特定价值观的显著相关性，从而提供了可靠的价值评估基础。数据集包含520个独特的查询-响应对，每个项目平均由46名参与者评估，覆盖了10种Schwartz基本价值观和5种大五人格特质。

使用方法

使用Value Portrait数据集时，首先筛选出与特定价值观相关性超过0.3的查询-响应对。接着，将筛选后的项目呈现给目标LLM，要求其基于6点Likert量表评估响应与自身思维的相似性。最后，通过计算每个价值观维度得分的均值并进行标准化处理，量化LLM的价值取向。该方法支持多提示词输入以降低偏差，并通过内部一致性检验（Cronbach's α>0.76）确保评估的可靠性。

背景与挑战

背景概述

Value Portrait是由首尔国立大学数据科学研究生院的研究团队于2025年提出的一个创新性基准数据集，旨在解决大型语言模型（LLMs）价值评估中的关键问题。该数据集基于Schwartz基本价值理论，通过520个真实人机交互的查询-响应对，结合681名受试者的心理测量数据，构建了首个具有生态效度的LLM价值评估框架。其创新性体现在：1）采用心理测量学验证方法，通过计算人类评分与PVQ-21量表的相关系数来标注价值维度；2）整合ShareGPT、LMSYS等真实对话数据与Reddit、Dear Abby等人类咨询场景，覆盖多样化现实情境。该工作发表于arXiv:2505.01015v1，为AI价值对齐研究提供了方法论突破和标准化评估工具。

当前挑战

该数据集面临双重挑战：领域层面需解决传统价值评估方法存在的生态效度不足问题，现有基准或依赖抽象心理量表（如PVQ-21），或局限于安全场景，难以反映LLMs在复杂现实场景中的真实价值表达；构建层面需克服标注偏差难题，实验证明传统人工或机器标注方法（如ValueNet）仅5-10%的项目与真实价值相关，而本数据集通过创新性地要求受试者评估响应与自身思维的相似度，并建立与Schwartz价值观的量化关联，显著提升了标注信效度。此外，还需平衡多价值维度的表征覆盖与标注成本，确保549个显著价值相关项的统计效力。

常用场景

经典使用场景

Value Portrait数据集在评估大型语言模型（LLMs）的价值取向方面具有经典应用场景。通过真实的人类与LLM交互数据，该数据集能够捕捉模型在不同情境下的价值表达，从而帮助研究者理解模型在生成文本时如何体现人类价值观。这种评估不仅限于理论层面，还能在实际对话场景中验证模型的价值对齐程度，为模型优化提供数据支持。

实际应用

在实际应用中，Value Portrait数据集可用于优化LLMs的价值对齐，确保模型生成的内容符合特定用户群体的价值观。例如，在心理健康咨询、教育辅导和客户服务等领域，该数据集可以帮助开发者调整模型，使其输出更具同理心和社会责任感的内容，从而提升用户体验和社会接受度。

衍生相关工作

Value Portrait数据集衍生了多项经典研究，包括LLMs价值取向的模式分析、模型规模对价值表达的影响以及价值引导技术的开发。例如，研究发现LLMs普遍重视仁慈、安全和自我导向价值观，而较少关注传统、权力和成就价值观。这些研究为后续的价值对齐和模型优化工作提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集