Agent-ValueBench

github2026-05-13 更新2026-05-14 收录

下载链接：

https://github.com/ValueByte-AI/Agent-ValueBench

下载链接

链接失效反馈

官方服务：

资源简介：

Agent-ValueBench是第一个用于评估工具使用语言模型代理价值的综合基准，涵盖28个价值系统、332个系统范围的价值维度、394个可执行沙盒环境和4,335个价值冲突任务。每个基准案例定义了一个价值冲突任务、一个沙盒环境、可用工具以及用于评估代理轨迹是否支持价值冲突任一侧的评分项。

Agent-ValueBench is the first comprehensive benchmark for evaluating the value of tool-using language model agents. It encompasses 28 value systems, 332 system-wide value dimensions, 394 executable sandbox environments, and 4,335 value conflict tasks. Each benchmark case defines a value conflict task, a sandbox environment, available tools, and scoring criteria for assessing whether an agent's trajectory supports either side of the corresponding value conflict.

创建时间：

2026-05-11

原始信息汇总

Agent-ValueBench 数据集详情

数据集概述

Agent-ValueBench 是首个用于评估工具使用语言模型代理（Agent）价值观的综合性基准测试。该基准围绕一个核心问题设计：代理展现出什么样的价值观？

数据集规模

涵盖 28 个价值体系
包含 332 个系统范围的价值维度
提供 394 个可执行的沙箱环境
包含 4,335 个价值冲突任务

每个基准案例定义了一个价值冲突任务、一个沙箱环境、可用的工具以及用于评估代理轨迹支持价值冲突哪一方的评分标准。

数据集内容结构

已发布的基准资产

资产类别	说明
`environment/`	可执行的沙箱环境，每个环境包含配对的 JSON 模式文件和 Python 实现文件
`case/`	初始化并使用上述环境的价值冲突任务
`rubric/`	保存的案例特定评分标准，用于 ValueEval 评分代理轨迹
`configs/value_systems.json`	用于构建和解释案例的价值体系定义

核心流水线组件

环境生成与运行时导出 (EnvGen/)：从源任务发现环境主题，合成为有状态的工具环境，通过执行进行验证和修复，导出运行时文件
案例生成 (CaseGen/)：从适配环境和权威价值定义生成可执行的价值冲突案例
智能体轨迹生成 (TrajGen/)：使用兼容 OpenAI 的函数调用 ReAct 代理在每个案例上运行，记录结构化轨迹
轨迹评判与聚合 (ValueEval/)：使用保存的评分标准评判轨迹，计算价值遵循度，通过 Bradley-Terry 排序估计价值优先级

可选实验组件

LLM 强制选择比较 (LLMChoice/)：将选定案例作为直接的两选项 LLM 决策呈现，转换为价值优先级格式
替代框架评估 (HarnessEval/)：通过 OpenClaw、Codex 和 Claude Code 风格框架运行选定案例，包括技能注入实验

数据格式说明

环境文件以配对形式存储：environment/<EnvName>.json（JSON 模式）和 environment/<EnvName>.py（Python 实现）
案例文件以扁平 JSON 文件形式存储：case/case_XXXXX.json
评分标准文件存储在 rubric/ 目录中
价值体系定义存储在 configs/value_systems.json

论文引用

bibtex @misc{dong2026agentvaluebenchcomprehensivebenchmarkevaluating, title={Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values}, author={Haonan Dong and Qiguan Feng and Kehan Jiang and Haoran Ye and Xin Zhang and Guojie Song}, year={2026}, eprint={2605.10365}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2605.10365}, }

搜集汇总

数据集介绍

构建方式

Agent-ValueBench的构建遵循一条系统化的流水线。首先，通过EnvGen模块从源任务中挖掘环境主题，利用大语言模型合成具备状态的工具环境，并通过执行验证与修复生成可运行的沙盒环境。随后，CaseGen模块基于权威价值定义与适配后的环境，生成蕴含价值冲突的基准任务，每个案例均包含冲突情境、可用工具和评估规则。TrajGen模块驱动兼容OpenAI接口的ReAct智能体在沙盒中执行任务，记录结构化轨迹。最后，ValueEval模块依据预设评分量表对轨迹进行评判，并采用Bradley-Terry排序模型估算价值优先级，从而完成从环境生成到价值评估的全链路构建。

特点

该数据集作为首个全面评估工具使用型语言智能体价值取向的基准，展现出显著的广度与深度。其覆盖28套价值体系、332个体系级价值维度，并包含394个可执行沙盒环境与4,335个价值冲突任务，规模宏大。每个基准案例均精心定义了价值冲突任务、对应的沙盒环境、可用工具以及用于评判智能体行为倾向的评分规则，确保评估的精细与严谨。此外，数据集包含完整的构建与评估代码，支持可复现的科研探索，并设计了强制选择与替代框架对比等可选实验模块，为剖析智能体价值偏好提供了多维视角。

使用方法

使用Agent-ValueBench首先需配置Python 3.11环境并安装依赖。研究者可直接利用发布的环境、案例和评分数据集运行模型与评估，无需从头生成。核心流程包括：配置API凭证后，运行TrajGen模块驱动待评估的智能体模型在沙盒环境中执行任务并生成轨迹；接着调用ValueEval模块，利用预存评分量表对轨迹进行自动评判，计算价值遵从性分数；最后通过Bradley-Terry模型计算价值优先级，并生成Markdown汇总报告。数据集在Hugging Face上公开，模块化设计支持研究者选取特定环节进行实验，或使用强制选择与替代框架模块进行对比分析。

背景与挑战

背景概述

随着大型语言模型驱动的智能体在工具使用场景中的广泛应用，其行为背后所蕴含的价值取向成为亟待深究的关键议题。Agent-ValueBench由Haonan Dong、Qiguan Feng等研究者于2026年提出，旨在系统性地评估工具型语言模型智能体在执行任务时展现的价值倾向。该基准涵盖28种价值体系、332个价值维度、394个可执行的沙盒环境及4,335个价值冲突任务，为智能体价值对齐研究提供了首个综合性评估框架。其核心贡献在于构建了一套从环境生成、案例构建到轨迹评判的完整流水线，使得研究者能够量化智能体在复杂交互场景中的价值偏好与优先级，为人工智能安全与伦理对齐领域奠定了重要的评测基础。

当前挑战

Agent-ValueBench所面临的挑战源于智能体价值评估本身的复杂性与构建过程的严谨性。在领域问题层面，其核心挑战在于如何将抽象的价值概念转化为可量化、可验证的任务设计，使得智能体在不同价值冲突情境下展现出的行为差异能够被准确捕捉与度量，从而揭示其内隐的价值排序。在构建过程中，研究者需要应对环境生成的多样性与可执行性，确保每个沙盒环境既能触发特定价值冲突，又具备足够的真实性与复杂度；同时，案例生成环节要求精准对齐权威价值定义，以避免主观偏差。此外，轨迹评判阶段依赖大规模API调用与多模型协作，如何保证评判的一致性与鲁棒性，亦是该基准在实践中需要持续攻坚的难题。

常用场景

经典使用场景

在人工智能伦理与安全研究领域，Agent-ValueBench作为首个全面评估工具型语言模型代理（Agent）价值观的基准，其经典使用场景在于构建包含价值观冲突的沙盒环境，并驱动代理在此环境中执行工具调用任务。研究人员通过该基准的4,335个价值观冲突任务，系统性地观测并量化代理在具体交互中展现的价值观倾向，从而为理解智能代理的价值偏好提供标准化的实验范式。

解决学术问题

该基准解决了此前学界缺乏统一评估框架以量化代理价值观的学术难题。通过覆盖28个价值体系、332个系统级价值维度以及394个可执行沙盒环境，Agent-ValueBench首次实现了代理行为中价值观的精确归因与优先级排序（Bradley-Terry排名）。这一突破推动了价值对齐研究从理论探讨迈向可重复实验的科学范式，为检验不同模型在复杂价值冲突中的表现提供了严谨的评估指标。

衍生相关工作

该基准的衍生工作涵盖了多项比较性实验，包括强制选择LLM对比实验，用以揭示同一模型在直接问答与工具代理行为中价值观差异；以及备选工具框架（如OpenClaw、Codex与Claude Code）下的价值观评估，探索不同交互架构对价值观表达的影响。此外，技能注入实验研究外部知识干预如何改变代理的价值观优先级，为后续的价值对齐技术提供了重要的实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集