Anonymous_Benchmark

github2026-05-07 更新2026-05-08 收录

下载链接：

https://github.com/qiaoyuan667/Anonymous-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估LLM代理在与对抗性对手交互时是否能遵守用户指定的隐私约束的基准测试数据集。数据集是合成生成的，不包含真实的个人数据。

This is a benchmark dataset for evaluating whether LLM agents can comply with user-specified privacy constraints during interactions with adversarial opponents. This dataset is synthetically generated and contains no real personal data.

创建时间：

2026-04-13

原始信息汇总

数据集概述

基本信息

数据集名称：Anonymous-Benchmark（简称 Anonymous-Bench）
数据集用途：评估大语言模型（LLM）代理在与对抗方交互时，能否遵守用户指定的隐私约束。
数据集地址：https://github.com/qiaoyuan667/Anonymous-Bench

许可信息

代码许可：MIT 许可协议
数据集许可：Creative Commons Attribution 4.0 International License (CC BY 4.0)
版权信息：版权所有 © 2026 Anonymous Authors

数据特性

数据集为合成生成，不包含真实个人数据。

引用说明

如使用 Anonymous-Bench，请引用：Anonymous atm

搜集汇总

数据集介绍

构建方式

Anonymous_Benchmark数据集旨在评测大型语言模型（LLM）智能体在与对抗方交互过程中，是否能够遵循用户指定的隐私约束。该数据集通过合成生成的方式构建，不包含任何真实个人数据，确保了隐私伦理的合规性。数据集以CC BY 4.0许可协议发布，支持开放共享与二次利用。

特点

该基准测试的独特之处在于其聚焦于隐私保护这一前沿安全问题，通过设置对抗交互场景，模拟现实世界中信息泄露的风险。数据集完全采用合成数据，兼顾了安全评测与隐私保护的双重需求，为验证LLM智能体的隐私合规能力提供了标准化测试环境。

使用方法

用户可将匿名基准测试作为评估工具，用于检验自有LLM智能体在预设隐私约束下的表现。代码部分遵循MIT许可协议，便于集成到现有评测流程中。数据集可直接加载并应用于对抗交互任务，通过对比智能体输出与约束条件的匹配程度，量化其隐私守护效能。

背景与挑战

背景概述

随着大型语言模型（LLM）代理在对话与任务执行中的广泛应用，用户隐私保护成为关键议题。Anonymous_Benchmark基准测试于2026年由匿名研究团队创建，核心研究问题聚焦于评估LLM代理在与对抗性对手交互时，能否尊重用户指定的隐私约束。该数据集通过合成方式生成，不包含真实个人数据，旨在模拟现实世界中隐私泄露的风险场景。其发布为隐私安全领域提供了标准化的评估工具，推动了代理安全性与可信赖性的研究进展，对构建负责任的AI系统具有重要学术与实践影响力。

当前挑战

该基准所解决的领域挑战是LLM代理在动态交互中坚守用户隐私约束的难题，现有模型常因对抗性诱导而泄露敏感信息，缺乏系统性的安全验证机制。构建过程中面临的核心挑战包括：设计逼真的对抗性交互场景以模拟真实攻击策略，确保合成数据在无真实隐私信息的前提下仍能有效触发隐私泄露行为；平衡场景的复杂度与可复现性，避免基准过于简单或脱离实际；同时需定义明确的评估指标，以量化代理对隐私约束的遵守程度与对抗性鲁棒性。

常用场景

经典使用场景

在大型语言模型（LLM）智能体与对抗方交互的复杂环境下，Anonymous_Benchmark被广泛用于评估智能体能否严格遵循用户定义的隐私约束。该基准测试通过模拟对抗性对话场景，检验LLM在指令遵循与隐私保护之间的权衡能力，尤其关注智能体在接收敏感指令时是否泄露受保护信息。研究者通常在此基准上验证模型的隐私安全意识、对抗鲁棒性以及指令层级理解能力，从而推动可信赖AI交互系统的设计优化。

解决学术问题

该数据集直击LLM安全性与用户隐私对齐的前沿问题，解决了现有基准缺乏对多轮对抗交互中隐私约束遵循性的系统评估这一空白。它使学术界能够量化分析模型在面对诱导性提问、隐含信息提取等对抗策略时的脆弱性，揭示大模型在隐私保护指令下的行为边界。这一贡献为构建符合人机交互伦理准则的智能体提供了关键评测手段，深刻影响了AI对齐、安全强化学习及隐私合规领域的研究范式。

衍生相关工作

基于Anonymous_Benchmark，研究者已衍生出多项经典工作，包括针对隐私约束的对抗性提示攻击防御框架、隐私对齐的奖励模型设计，以及多轮对话中的记忆擦除机制。后续工作还探索了将基准与差分隐私理论结合，形成隐私预算感知的智能体训练范式。这些衍生研究不仅扩展了LLM安全评测的维度，还催生了人机交互中隐私保护指令遵循的标准化评估体系，成为AI安全社区引用与对比的标杆性数据集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集