ValuePilot Dataset
收藏arXiv2025-03-07 更新2025-03-11 收录
下载链接:
http://arxiv.org/abs/2503.04569v1
下载链接
链接失效反馈资源简介:
ValuePilot数据集是由清华大学知识工程实验室和BIGAI提出的一种新型数据集,旨在支持AI进行价值驱动的决策制定。该数据集通过DGT工具包生成,包含11938个场景和100,255个动作,每个动作根据六个价值维度(好奇心、活力、安全、幸福感、亲密感和公平性)进行评分。数据集的创建结合了自动化技术和人工审查,以确保场景与动作的合理性和价值维度的准确性。该数据集适用于训练AI在动态现实世界环境中做出具有个性化和解释性的决策。
提供机构:
清华大学
创建时间:
2025-03-07
AI搜集汇总
数据集介绍

构建方式
ValuePilot Dataset 是通过两阶段框架构建的,该框架包括数据集生成工具包 DGT 和基于生成数据训练的决策模块 DMM。DGT 能够基于价值维度生成场景,并紧密模拟现实世界的任务,通过自动过滤技术和人工审核确保数据集的有效性。在生成的数据集中,DMM 学习识别场景的内在价值,计算行动的可行性,并在多个价值维度之间进行权衡,以做出个性化的决策。
特点
ValuePilot Dataset 的特点在于其能够生成具有数值价值维度注释的高质量数据集,这使代理能够学习识别场景中固有的价值。该数据集涵盖了日常生活中非常重要的六个价值维度:好奇心、能量、安全、幸福、亲密和公平,并采用了多级层次结构来评估计算模型在面对多维度价值交互的复杂性。此外,数据集经过自动化过滤和人工审核,确保了数据的一致性和可靠性。
使用方法
ValuePilot Dataset 的使用方法包括两个主要步骤:首先,使用 DGT 生成包含场景描述、可能行动及其对应价值维度分数的数据集。然后,使用 DMM 训练语言模型,使其能够根据个人偏好进行价值驱动的决策。DMM 包括价值评估网络和行动选择模块,它结合了情景背景、个人价值偏好和行动可行性,以生成最终的行动排序。用户可以根据个人价值偏好调整模型,使其更好地反映自己的决策过程。
背景与挑战
背景概述
随着人工智能(AI)系统日益融入人类环境,其智能、自适应和人性化的决策能力变得比以往任何时候都更加关键。传统的AI决策方法遵循任务导向范式,基于外部奖励优化预定义的目标。然而,人类的决策过程遵循价值驱动的方法,个人通过其内在价值观感知情况,并选择与个人价值偏好相符的行动。价值驱动决策在心理学和认知科学中得到了充分的研究。Schwartz的基本人类价值观理论描述了影响行为的普遍价值观结构,而Maslow的需求层次理论解释了人类如何以分层顺序优先考虑需求,并基于基本和高阶需求的满足来指导决策。这些观点表明,人类的决策不仅仅是关于任务效率,还涉及在复杂环境中平衡相互竞争的价值观。通过通过价值观而不是固定目标进行推理,AI代理可以更好地泛化到新颖的场景,使其在决策过程中更像人类。尽管人们对价值一致性越来越感兴趣,但现有的AI方法在模拟个性化的价值驱动决策方面仍面临挑战。例如,来自人类反馈的强化学习(RLHF)和直接偏好优化(DPO)等技术试图将AI与广泛的人类价值观保持一致,但将人类偏好视为一个整体,未能捕捉到个人价值偏好的细微差异。同样,结构化决策模型如AutoPlan和ReAct侧重于优化效率,而没有解决驱动人类决策的主观动机。为了解决这些挑战,我们提出了ValuePilot,一个两阶段的价值驱动决策框架,包括一个数据集生成工具包DGT和一个在生成数据上训练的决策模块DMM。DGT能够根据价值维度生成场景,并紧密地反映现实世界的任务,具有自动过滤技术和人工校对,以确保数据集的有效性。在生成的数据集中,DMM学习识别场景的内在价值,计算行动可行性,并在多个价值维度之间导航权衡,以做出个性化的决策。大量实验表明,考虑到人类价值偏好,我们的DMM最接近人类决策,优于Claude-3.5Sonnet、Gemini-2-flash、Llama-3.1-405b和GPT-4o。这项研究是对价值驱动决策的初步探索。我们希望它能激发人们对价值驱动决策和个性化决策的兴趣。
当前挑战
尽管近年来在人工智能(AI)方面取得了进展,但在训练数据集中未被考虑的任务中确保个性化决策仍然具有挑战性。现有的AI方法在模拟个性化的价值驱动决策方面仍面临挑战。例如,来自人类反馈的强化学习(RLHF)和直接偏好优化(DPO)等技术试图将AI与广泛的人类价值观保持一致,但将人类偏好视为一个整体,未能捕捉到个人价值偏好的细微差异。同样,结构化决策模型如AutoPlan和ReAct侧重于优化效率,而没有解决驱动人类决策的主观动机。此外,现有的决策数据集,如ALFWorld和InterCode,只关注任务完成,并没有考虑人类价值观如何塑造行动选择,这使得它们不适合用于训练AI代理进行价值驱动决策。为了解决这些挑战,我们提出了ValuePilot,一个两阶段的框架,用于价值驱动决策。ValuePilot由两个组件组成:一个结构化数据集生成工具包(DGT)和一个价值驱动决策模块(DMM)。DGT利用大型语言模型(LLMs)构建一个高质量的具有数值价值维度注释的数据集,使代理能够学习识别场景中固有的价值。DMM整合了给定场景中的客观行动可行性和多个价值偏好之间的平衡,以做出个性化的决策。我们在各种国内场景中评估ValuePilot,将其与现有的大型语言模型进行比较,并通过一项人类研究来评估其有效性。结果表明,ValuePilot最接近人类决策,在做出情境感知、偏好对齐的决策方面优于基线模型。我们的框架为训练能够做出可泛化、可解释和个性化决策的AI代理提供了一个可扩展的解决方案。
常用场景
经典使用场景
ValuePilot数据集主要应用于构建一个价值驱动的决策制定框架,该框架由数据集生成工具包DGT和决策制定模块DMM组成。DGT可以根据价值维度生成场景,并自动过滤和人工校对以确保数据集的有效性。DMM则学习识别场景中的内在价值,计算行动可行性,并在多个价值维度之间进行权衡,以做出个性化的决策。该数据集最经典的使用场景是用于训练人工智能代理,使其能够理解和模拟人类的价值驱动决策过程,从而在复杂环境中做出更加人性化的决策。
实际应用
ValuePilot数据集的实际应用场景包括但不限于智能家居、教育、医疗保健和个性化服务等领域。在智能家居中,人工智能代理可以利用ValuePilot数据集来理解和模拟人类的价值驱动决策过程,从而在复杂环境中做出更加人性化的决策。在教育领域,人工智能代理可以利用ValuePilot数据集来理解和模拟学生的价值驱动决策过程,从而提供更加个性化的学习体验。在医疗保健领域,人工智能代理可以利用ValuePilot数据集来理解和模拟患者的价值驱动决策过程,从而提供更加个性化的医疗服务。在个性化服务领域,人工智能代理可以利用ValuePilot数据集来理解和模拟用户的价值驱动决策过程,从而提供更加个性化的服务体验。
衍生相关工作
ValuePilot数据集衍生了多项相关工作,包括但不限于决策制定语言模型、角色扮演语言代理和偏好建模多标准决策制定等。决策制定语言模型通过结构化推理框架,如Chain-of-Thought和Inner Monologue,来引导大型语言模型进行决策制定。角色扮演语言代理利用大型语言模型来模拟人类-like的人物,并通过上下文适应来实现细粒度的价值对齐。偏好建模多标准决策制定通过多标准决策分析方法,如MAUT、AHP、TOPSIS和PROMETHEE,来建立系统框架,以协调竞争目标。这些相关工作为ValuePilot数据集的应用和推广提供了重要的理论和实践基础。
以上内容由AI搜集并总结生成



