five

Value Portrait

收藏
arXiv2025-05-02 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.01015v1
下载链接
链接失效反馈
官方服务:
资源简介:
Value Portrait是一个用于评估大型语言模型(LLM)价值取向的可靠框架。该数据集包含520个独特的查询-响应对,每个都标注了15个心理维度(10个Schwartz价值观和5个五大人格特质)。数据集的建设过程包括从人类-LLM交互数据集中提取查询,使用GPT-4o生成响应,然后由人类参与者根据响应与自身想法的相似程度进行标注。该数据集旨在解决现有基准中存在的价值相关偏差问题,并为理解LLM在真实世界场景中的价值取向提供依据。
提供机构:
首尔国立大学数据科学研究生院
创建时间:
2025-05-02
搜集汇总
数据集介绍
main_image_url
构建方式
Value Portrait数据集通过三个关键步骤构建:查询构建、响应生成和价值标注。首先,从ShareGPT、LMSYS-Chat-1M、Reddit和Dear Abby等来源提取真实的人类-LLM和人类-人类交互查询。接着,使用GPT-4o为每个查询生成多个不同视角的响应。最后,通过Prolific平台招募参与者,基于其与自身思维的相似性对响应进行评分,并通过与Schwartz基本价值观问卷(PVQ-21)的相关性分析,确定每个查询-响应对的价值相关性。
特点
Value Portrait数据集具有两大核心特点:首先,其查询-响应对均源自真实的人类-LLM交互场景,确保了评估结果的生态效度;其次,通过心理测量学验证方法,每个项目均标注了与特定价值观的显著相关性,从而提供了可靠的价值评估基础。数据集包含520个独特的查询-响应对,每个项目平均由46名参与者评估,覆盖了10种Schwartz基本价值观和5种大五人格特质。
使用方法
使用Value Portrait数据集时,首先筛选出与特定价值观相关性超过0.3的查询-响应对。接着,将筛选后的项目呈现给目标LLM,要求其基于6点Likert量表评估响应与自身思维的相似性。最后,通过计算每个价值观维度得分的均值并进行标准化处理,量化LLM的价值取向。该方法支持多提示词输入以降低偏差,并通过内部一致性检验(Cronbach's α>0.76)确保评估的可靠性。
背景与挑战
背景概述
Value Portrait是由首尔国立大学数据科学研究生院的研究团队于2025年提出的一个创新性基准数据集,旨在解决大型语言模型(LLMs)价值评估中的关键问题。该数据集基于Schwartz基本价值理论,通过520个真实人机交互的查询-响应对,结合681名受试者的心理测量数据,构建了首个具有生态效度的LLM价值评估框架。其创新性体现在:1)采用心理测量学验证方法,通过计算人类评分与PVQ-21量表的相关系数来标注价值维度;2)整合ShareGPT、LMSYS等真实对话数据与Reddit、Dear Abby等人类咨询场景,覆盖多样化现实情境。该工作发表于arXiv:2505.01015v1,为AI价值对齐研究提供了方法论突破和标准化评估工具。
当前挑战
该数据集面临双重挑战:领域层面需解决传统价值评估方法存在的生态效度不足问题,现有基准或依赖抽象心理量表(如PVQ-21),或局限于安全场景,难以反映LLMs在复杂现实场景中的真实价值表达;构建层面需克服标注偏差难题,实验证明传统人工或机器标注方法(如ValueNet)仅5-10%的项目与真实价值相关,而本数据集通过创新性地要求受试者评估响应与自身思维的相似度,并建立与Schwartz价值观的量化关联,显著提升了标注信效度。此外,还需平衡多价值维度的表征覆盖与标注成本,确保549个显著价值相关项的统计效力。
常用场景
经典使用场景
Value Portrait数据集在评估大型语言模型(LLMs)的价值取向方面具有经典应用场景。通过真实的人类与LLM交互数据,该数据集能够捕捉模型在不同情境下的价值表达,从而帮助研究者理解模型在生成文本时如何体现人类价值观。这种评估不仅限于理论层面,还能在实际对话场景中验证模型的价值对齐程度,为模型优化提供数据支持。
实际应用
在实际应用中,Value Portrait数据集可用于优化LLMs的价值对齐,确保模型生成的内容符合特定用户群体的价值观。例如,在心理健康咨询、教育辅导和客户服务等领域,该数据集可以帮助开发者调整模型,使其输出更具同理心和社会责任感的内容,从而提升用户体验和社会接受度。
衍生相关工作
Value Portrait数据集衍生了多项经典研究,包括LLMs价值取向的模式分析、模型规模对价值表达的影响以及价值引导技术的开发。例如,研究发现LLMs普遍重视仁慈、安全和自我导向价值观,而较少关注传统、权力和成就价值观。这些研究为后续的价值对齐和模型优化工作提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作