pluralistic-value-conflict-benchmark
收藏Pluralistic Value-Conflict Benchmark 数据集概述
数据集基本信息
- 名称:Pluralistic Value-Conflict Benchmark
- 许可协议:MIT
- 任务类别:文本分类
- 主要语言:英语
- 标签:价值对齐、人机交互、伦理、基准测试、多元价值
- 数据规模:1K<n<10K
数据集简介
该数据集包含从20种文化背景下的自主家庭机器人模拟中自动提取的价值冲突场景。场景通过多日的大语言模型智能体模拟生成,模拟中一个家用仿人机器人(Aria)与2-3名家庭成员执行各自的日常计划;冲突源于任务的自然重叠,而非预设的提示。
版本信息
| 版本 | 运行ID | 场景数 | 独特价值对 | 状态 |
|---|---|---|---|---|
| v3 (当前) | benchmark_1k_v3_multitarget |
6,920 个独特场景 | 45 | 新版本 |
| v2 (存档) | benchmark_1k_v2_diversity |
878 个独特场景 | 48 | 已保存 |
v3版本相对于v2的改进:
- 多目标轴旋转:每个情景覆盖3个价值对轴,而非1个,使覆盖范围增长约8倍。
- 保留每个情景的工件来源(冲突事件、碰撞、记忆流、反思)。
- 每个情景包含完整的复现元数据。
数据集统计摘要 (v3)
| 指标 | 数值 |
|---|---|
| 情景数 | 120 |
| 提取的原始场景数 | 6,921 |
| 独特场景数 (去重后) | 6,920 |
| 移除的重复项 | 1 |
| 独特价值对 | 45 |
| 独特家庭构成 | 407 |
| 文化预设 | 20 |
| 情景变体 | 3 (痴呆症、中风康复、残疾) |
空间分布 (v3场景)
| 位置 | 场景数 | 百分比 |
|---|---|---|
| 厨房 | 2,524 | 36.5% |
| 客厅 | 1,096 | 15.8% |
| 书房 | 985 | 14.2% |
| 卧室 | 868 | 12.5% |
| 车库 | 410 | 5.9% |
| 浴室 | 367 | 5.3% |
| 走廊 | 323 | 4.7% |
| 阳台 | 320 | 4.6% |
数据结构
数据集文件主要位于data/目录下:
benchmark_1k_v3_multitarget/(v3完整运行,新版本)deduplicated_scenes.json:6,920个独特场景 — 主要v3工件result.json:情景摘要audit.json:大语言模型调用审计追踪run.logrun_config.jsonepisodes/(包含120个情景目录,ep_001至ep_120)extracted_scenes.json:该情景的场景conflict_events.json:所有冲突事件collisions.json:标记的碰撞时刻daily_plans.json:每个智能体的每日计划interactions.jsonl:对话轮次memory_stream.jsonl:智能体记忆观察reflections.jsonl:智能体反思plan_tree.json:分层任务分解scene_graph.json:冲突时刻捕获的场景图robochecker_rules.json:合成的安全规则repro_metadata.json:种子 + 环境 + 智能体状态episode_record.json:顶层情景摘要agent_loop.log:每刻智能体认知日志
benchmark_1k_v2_diversity/(v2存档,原样保存)deduplicated_scenes.json(v2顶层,旧版本;1,257个独特价值冲突)result.json(v2运行元数据)audit.json(v2大语言模型审计追踪)
每场景模式 (v3)
deduplicated_scenes.json.scenes中的每个项目包含:
jsonc
{
"scene_id": "...",
"episode_index": 0,
"episode_dir": "ep_001",
"tick": 23,
"time": "10:45",
"location": "kitchen",
"agents_present": [/* 智能体字典或名称 */],
"dialogue": [{"speaker": "...", "target": "...", "utterance": "..."}],
"objects_in_scene": [{"name": "...", "location": "...", "state": "..."}],
"anticipation": "...",
"value_conflict": {
"value_a": "Physical Safety",
"value_b": "Decisional Autonomy",
"situation": "...",
"action_a": "...",
"action_b": "..."
}
}
价值分类 (10个集群)
- 物理安全
- 情感健康
- 尊严维护
- 决策自主性
- 信息隐私
- 社会和谐
- 公平与平等
- 诚实与透明
- 忠诚与守诺
- 任务有效性
改编自施瓦茨基本人类价值和人机交互伦理文献。
文化预设 (20种)
韩国、美国、日本、中东、斯堪的纳维亚、印度、巴西、中国、尼日利亚、墨西哥、德国、菲律宾、土耳其、荷兰、泰国、意大利、波兰、澳大利亚、越南、肯尼亚。
加载方式
python import json from huggingface_hub import hf_hub_download
v3主要工件
path = hf_hub_download( repo_id="madokalif/pluralistic-value-conflict-benchmark", filename="data/benchmark_1k_v3_multitarget/deduplicated_scenes.json", repo_type="dataset", ) scenes = json.load(open(path))["scenes"] print(f"{len(scenes)} scenes")
源代码
GitHub:https://github.com/holi-lab/pluralistic-robot/tree/feat/conflict-sim
引用
如果使用此数据集,请引用该仓库。




