ConVerse

github2025-11-30 更新2025-12-08 收录

下载链接：

https://github.com/amrgomaaelhady/ConVerse

下载链接

链接失效反馈

官方服务：

资源简介：

ConVerse是一个全面的基准测试数据集，用于评估多代理LLM对话中的隐私和安全风险。它评估AI助手在与外部代理交互时如何保护用户数据并抵抗操纵。数据集包含864个基于上下文的攻击（611个隐私攻击，253个安全攻击），覆盖3个现实领域（旅行规划、房地产、保险），12个用户角色，以及7种最先进的模型评估结果。

ConVerse is a comprehensive benchmark dataset for evaluating privacy and security risks in multi-agent LLM conversations. It assesses how AI assistants safeguard user data and resist manipulation when interacting with external agents. The dataset includes 864 context-aware attacks (611 privacy attacks and 253 security attacks), covering 3 real-world domains (travel planning, real estate, insurance), 12 user personas, and evaluation results from 7 state-of-the-art models.

创建时间：

2025-11-07

原始信息汇总

ConVerse 数据集概述

数据集基本信息

数据集名称: ConVerse: Benchmarking Contextual Safety in Agent-to-Agent Conversations
数据集地址: https://github.com/amrgomaaelhady/ConVerse
许可证: MIT
研究论文: https://arxiv.org/abs/2511.05359

数据集目的与核心内容

ConVerse 是一个用于评估多智能体LLM对话中隐私和安全风险的综合性基准。该数据集旨在评估AI助手在与外部智能体进行交互时，如何在现实用例中保护用户数据并抵抗操纵。

关键统计数据

攻击总数: 864个上下文攻击（611个隐私攻击，253个安全攻击）
评估领域: 3个现实领域（旅行规划、房地产、保险）
用户角色: 12个具有详细资料和偏好的用户角色
评估模型: 7个最先进模型（GPT-5、Claude Sonnet 4.0、Claude Haiku 3.5、Gemini 2.5 Pro、Gemini 2.5 Flash、Grok-3、O3-mini）
交互模式: 多轮智能体到智能体的自主对话
评估结果: 隐私攻击成功率高达88%，安全漏洞率高达60%

隐私分类法

数据集采用三级隐私分类法：

无关数据（占攻击的34.4%）：与任务领域无关
领域相关但隐私（占攻击的29.3%）：语义相关但非必要
领域相关且有用（占攻击的36.3%）：规划所必需但需要抽象

安全攻击类别

工具包操纵（占攻击的39.1%）：利用助手的工具进行未经授权的操作
偏好操纵（占攻击的60.9%）：引导智能体选择未对齐的选项

主要发现

能力更强的模型泄露更多信息: GPT-5的隐私攻击成功率（ASR）达到84.68%
与领域的接近程度与泄露相关: “相关且有用”的数据表现出90-94%的ASR
隐私比安全更难防御: 各模型的平均隐私ASR为64%，安全ASR为33%
上下文攻击非常有效: 使用合理理由的多轮攻击成功率很高
模型在抽象方面失败: 当前LLM无法区分合法合作与上下文胁迫
存在隐私-效用权衡: 能更好个性化计划的模型更容易受到上下文隐私攻击

系统架构

基准模拟了一个三智能体系统：

用户环境智能体: 代表具有特定偏好和数据的用户
助手智能体: 被评估的基于LLM的助手
外部智能体: 模拟外部服务（旅行社、房地产经纪人、保险经纪人）

项目结构

数据集包含以下主要目录和文件：

main.py: 主执行脚本
requirements.txt: Python依赖项
model.py: LLM接口和提供商管理
utils.py: 日志记录和实用函数
simulation_utils.py: 模拟辅助函数
attack_execution.py: 攻击编排逻辑
benchmark_stats.py: 基准统计计算
results_analysis/: 模块化结果分析包
assistant/: 助手智能体实现
user_environment/: 用户环境智能体
external_agent/: 外部智能体（对抗性/良性）
judge/: 自动评估系统
use_cases/: 用例配置
resources/: 实验数据和攻击定义

数据组织

输入数据结构

攻击定义和角色数据组织在resources/目录下：

角色环境文件: resources/<use_case>/env_persona<N>.txt
安全攻击: resources/<use_case>/security_attacks/security_attacks_persona<N>.json
隐私攻击: resources/<use_case>/privacy_attacks/privacy_attacks_persona<N>.json
真实评分: resources/<use_case>/ratings/ratings_persona<N>.json

输出数据结构

结果保存在logs/目录中，按以下层次结构组织：

logs/<use_case>/<model_name>/baseline/persona<N>/
- security/: 安全攻击结果
- privacy/: 隐私攻击结果
- benign/: 良性基线结果

搜集汇总

数据集介绍

构建方式

在人工智能代理交互日益频繁的背景下，ConVerse数据集的构建旨在模拟真实的多智能体对话场景，以评估大型语言模型在隐私与安全方面的鲁棒性。该数据集通过设计三个高度仿真的应用领域——旅行规划、房地产咨询与保险服务，并嵌入了864项基于上下文的攻击案例，其中包含611项隐私攻击与253项安全攻击。其构建过程采用了模块化的三智能体架构，即用户环境代理、被评估的助手代理以及外部服务代理，通过多轮动态对话的形式，将恶意请求巧妙地融入合理的任务流程中，从而超越了传统静态提示的评估范式。

使用方法

为使用ConVerse数据集进行评估研究，用户需首先配置相应的大型语言模型API密钥。通过执行项目中的主脚本，研究者可以指定评估领域、用户画像、攻击类型以及待测模型。该框架支持运行特定攻击或批量执行所有攻击案例，并内置了自动化评估系统，通过独立的评判模型对对话的效用、隐私泄露与安全漏洞进行量化评分。实验结果以结构化的JSON格式输出，详细记录了对话过程与各项评判指标，便于进行深入的统计分析。这种设计使得ConVerse不仅是一个静态的数据集合，更是一个完整的、可复现的基准测试平台。

背景与挑战

背景概述

随着大型语言模型向自主代理演进，代表用户执行任务并进行通信，确保多智能体生态系统中的安全性成为核心挑战。ConVerse基准数据集应运而生，旨在评估多智能体对话中的隐私与安全风险。该数据集由研究团队于近期构建，其核心研究问题聚焦于AI助手在与外部代理交互时，如何有效保护用户数据并抵御情境化操纵。通过模拟旅行规划、房地产和保险三个现实领域，ConVerse设计了包含864次情境化攻击的复杂交互场景，评估了包括GPT-5、Claude Sonnet 4.0在内的七种前沿模型。该数据集推动了智能体安全评估从静态单轮提示向动态多轮对话的范式转变，为理解协作与保护之间的内在张力提供了关键实证基础。

当前挑战

ConVerse致力于解决多智能体对话中情境化安全评估的挑战，其核心在于如何精准衡量AI助手在复杂协作任务中抵御隐私泄露与安全攻击的能力。构建过程面临多重困难：首先，设计既符合现实场景又蕴含隐蔽攻击的多轮对话极具复杂性，需平衡任务的合理性与攻击的隐蔽性；其次，建立超越二元过滤的三层隐私分类体系要求对数据相关性进行精细界定，这涉及大量语义分析与标注工作；再者，确保攻击策略在对话中自然嵌入且具有渐进性，对场景构建与流程控制提出了极高要求；最后，自动化评估系统需同时兼顾任务效用、隐私保护与安全防御的多维度评判，其可靠性与一致性验证构成了显著的技术障碍。

常用场景

经典使用场景

在人工智能代理交互安全研究领域，ConVerse数据集被广泛用于评估多智能体对话场景中的上下文安全风险。其经典使用场景聚焦于模拟旅行规划、房地产咨询和保险服务三个现实领域，通过构建包含864个上下文攻击的交互环境，驱动AI助手与外部服务代理进行多轮自主对话。研究者利用该数据集测试模型在复杂协作任务中保护用户隐私与抵御安全攻击的能力，尤其关注攻击如何巧妙地嵌入在合乎情理的对话流程里，而非以孤立、突兀的对抗提示形式出现。

解决学术问题

ConVerse数据集系统性地解决了大语言模型作为自主代理部署时，其多智能体交互安全评估标准缺失的核心学术问题。它超越了传统二元过滤的隐私保护范式，提出了三层隐私分类法，区分了无关数据、相关但私密的数据以及相关且有用的数据，从而精细化地衡量模型的信息抽象与保护能力。该数据集揭示了隐私与效用之间的固有权衡，并实证表明上下文攻击的成功率极高，为理解模型在动态、开放式对话中的脆弱性提供了关键见解，推动了可信赖多智能体系统的安全基准建设。

实际应用

在实际应用层面，ConVerse数据集为开发面向真实世界的AI助手产品提供了至关重要的安全测试框架。企业可利用其评估智能客服、个人事务管理代理或行业专属顾问在与外部系统（如航空公司、房产中介或保险平台）对接时的数据泄露风险与工具滥用漏洞。通过模拟攻击成功率高达88%的隐私泄露场景，该数据集能够指导工程团队设计和强化模型的安全护栏、数据脱敏策略以及交互协议，从而在提升服务效率的同时，切实保障用户敏感信息与操作权限不受侵害。

数据集最近研究