EAPrivacy
收藏github2025-10-07 更新2025-10-10 收录
下载链接:
https://github.com/Graph-COM/EAPrivacy
下载链接
链接失效反馈官方服务:
资源简介:
EAPrivacy是一个用于测量大型语言模型物理世界隐私意识的评估基准,包含四个层级:第一层级关注识别物理环境中的敏感对象,测试基础隐私知识;第二层级评估变化环境条件下的行为,测试对动态隐私需求的适应性;第三层级关注从上下文线索推断隐式隐私约束并解决与指定目标的冲突;第四层级处理多模态线索指示关键社会规范与个人隐私之间冲突的场景,测试优先考虑社会福祉的能力
EAPrivacy is an evaluation benchmark for measuring the physical-world privacy awareness of large language models, which consists of four levels: The first level focuses on identifying sensitive objects in the physical environment to test basic privacy knowledge; the second level evaluates behaviors under varying environmental conditions to test adaptability to dynamic privacy requirements; the third level focuses on inferring implicit privacy constraints from contextual cues and resolving conflicts with specified goals; the fourth level addresses scenarios where multimodal cues indicate conflicts between core social norms and personal privacy, to test the ability to prioritize social well-being.
创建时间:
2025-10-07
原始信息汇总
EAPrivacy 数据集概述
数据集简介
EAPrivacy 是一个用于评估大语言模型在物理世界中隐私意识能力的基准测试数据集,通过生成多样化场景来系统测量模型的隐私感知能力。
层级结构
Tier 1
- 关注重点:识别物理环境中的固有敏感对象,测试基础隐私知识
- 数据来源:原始信息来源于 ConfAIde (arXiv:2310.17884)
- 数据结构:
physical objects字段包含敏感对象的常见搭配combinations字段提供场景生成的组合信息
Tier 2
- 关注重点:评估在变化环境条件下的行为,测试对动态隐私需求的适应性
- 数据结构:
- 每个场景包含
scenario_name、environment_states和perception_cues - 提供共享候选行为池
candidate_action_ratings包含真实标签和人工评分标签
- 每个场景包含
Tier 3
- 关注重点:从上下文线索推断隐式隐私约束,解决与指定目标的冲突
- 数据结构:
- 包含
scenario_name、secret_item、container字段 observed_interactions包含多模态线索
- 包含
Tier 4
- 关注重点:处理多模态线索指示关键社会规范与个人隐私冲突的场景,测试优先考虑社会福祉的能力
- 数据结构:
- 包含
scenario_name、environment_states、perception_cues candidate_action_ratings包含候选行为expected_rating提供二元真实标签(个人隐私 vs 社会规范)
- 包含
数据文件位置
所有场景种子按层级组织在 eai_bench 文件夹中:
- Tier 1:https://github.com/Graph-COM/EAPrivacy/eai_bench/tier_1.json
- Tier 2:https://github.com/Graph-COM/EAPrivacy/eai_bench/tier_2.json
- Tier 3:https://github.com/Graph-COM/EAPrivacy/eai_bench/tier_3a.json
- Tier 4:https://github.com/Graph-COM/EAPrivacy/eai_bench/tier_4.json
发布计划
场景生成和LLM评估代码正在进行重构,将在论文接受后发布。
引用信息
@misc{shen2025measuringphysicalworldprivacyawareness, title={Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark}, author={Xinjie Shen and Mufei Li and Pan Li}, year={2025}, eprint={2510.02356}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2510.02356}, }
搜集汇总
数据集介绍

构建方式
在物理世界隐私保护研究领域,EAPrivacy数据集采用分层递进的设计理念构建而成。其基础层Tier1源自ConfAIde公开数据,通过提取物理对象与敏感信息的常见搭配关系形成种子组合;Tier2至Tier4则通过预设环境状态、多模态感知线索和候选行为池,构建动态隐私决策场景。每个层级的种子文件均包含完整的场景参数配置,确保评估体系既能覆盖基础隐私认知,又能检验复杂情境下的推理能力。
特点
该数据集最显著的特征体现在其四层金字塔式评估架构。Tier1专注于静态环境中敏感对象的本质识别,Tier2引入环境动态变化对行为决策的影响,Tier3要求模型从上下文线索推导隐式隐私约束,Tier4则设计社会规范与个人隐私的价值冲突场景。每个层级均配备人工标注的真实标签和平均评分,并融合视觉、文本等多模态线索,形成对大型语言模型隐私认知能力的多维度测量标尺。
使用方法
研究者可通过分层种子文件快速展开评估实验,各层级的JSON文件明确标注了场景名称、环境状态、感知线索等关键要素。以Tier2为例,用户可参照候选行为评分字段中的预期评分和人工平均评分,验证模型决策与人类共识的吻合度。对于高阶层级,通过分析模型在秘密物品保管、社会规范冲突等复杂场景中的行为选择,系统评估其隐私保护机制的完备性与适应性。
背景与挑战
背景概述
随着大语言模型在物理世界交互中的广泛应用,其隐私感知能力成为关键研究议题。EAPrivacy数据集由G-COM研究团队于2025年创建,旨在构建系统化评估框架,通过多层级场景设计衡量模型对物理环境中隐私边界的认知能力。该数据集通过四个递进层级的结构化测试,填补了现有研究在具身智能隐私评估领域的空白,为可解释性隐私保护机制的发展提供了重要基准。
当前挑战
该数据集核心挑战在于构建符合现实隐私决策逻辑的多模态评估体系。在领域问题层面,需解决动态环境中隐私约束的隐含特征提取难题,以及社会规范与个人隐私的冲突调和机制。构建过程中面临场景真实性与伦理平衡的挑战,包括敏感对象标注的一致性验证、多模态线索的语义对齐,以及人类标注者主观差异对基准标签的影响。
常用场景
经典使用场景
在人工智能伦理研究领域,EAPrivacy数据集通过构建多层级物理世界场景,系统评估大型语言模型的隐私意识能力。其经典应用体现在对模型进行分层测试:第一层级专注于识别环境中的敏感物体,验证基础隐私知识;第二层级模拟动态环境下的行为决策,检验模型对变化隐私需求的适应能力;第三层级要求从上下文线索推断隐含隐私约束,并解决与预设目标的冲突;第四层级则涉及社会规范与个人隐私的权衡决策,全面衡量模型的伦理判断水平。
实际应用
在实际部署层面,EAPrivacy为智能家居、自动驾驶和公共服务机器人等物理交互系统提供了关键的隐私安全测试工具。通过模拟真实环境中的敏感信息处理场景,帮助开发者在系统部署前识别潜在的隐私泄露风险。例如在智能安防系统中,可依据该数据集的评估结果优化摄像头数据处理策略;在医疗机器人领域,能指导设计符合HIPAA隐私标准的交互协议,切实保障用户隐私权益。
衍生相关工作
基于EAPrivacy基准已衍生出系列重要研究,其中ConfAIde工作为第一层级场景构建提供了基础语义框架。后续研究通过扩展多模态感知线索与复杂决策场景,逐步完善了物理世界隐私评估体系。这些工作共同推动了隐私感知人工智能的发展,特别是在跨模态隐私风险识别、动态环境适应性评估等方向形成了系统化的研究方法论,为构建下一代可信人工智能系统奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



