five

SentiAgent-data

收藏
github2026-05-19 更新2026-05-21 收录
下载链接:
https://github.com/Autumn1101/SentiAgent-data
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库存储用于四套总结的基准数据集和结果,包括Workspace、Travel、Banking和Slack四个数据集,涵盖用户任务和注入任务对,具体覆盖范围:Workspace有560对,Travel有140对,Banking有144对,Slack有105对,合并微分析数据集包含所有949个TrustTrace任务对。
创建时间:
2026-05-19
原始信息汇总

SentiAgent 数据仓库

数据集概述

该数据集仓库存储用于四套件总结的基准数据集和实验结果,主要围绕 AgentDojo 安全语义进行构建,其中 security=True 表示恶意注入目标成功,而导出的 defense_success 列与 security 相反。

数据集布局

核心数据集文件(按套件)

文件路径 说明
datasets/<suite>/task_catalog.* 完整的用户任务与注入任务目录
`datasets/<suite>/<baseline trusttrace>/result_matrix.*`
datasets/<suite>/micro_analysis_dataset.* 每个 TrustTrace 任务对的完整微观分析行
`raw_runs/<suite>/<baseline trusttrace>/`
analysis_artifacts/ 生成的 HTML 分析页面、详细报告及实验报告资源

全局汇总文件

  • all_main_results.*:紧凑的主要结果表,用于 Excel 工作簿
  • all_result_matrix.*:四个套件和两种运行类型的合并完整结果矩阵
  • micro_analysis_dataset.*:合并的完整微观分析数据集
  • 四个数据集主要结果汇总.xlsx:汇总四个主要数据集的 Excel 工作簿,包含完整矩阵、微观分析和任务目录表

覆盖范围

套件 用户任务数 × 注入任务数 总任务对
Workspace 40 × 14 560 对
Travel 20 × 7 140 对
Banking 16 × 9 144 对
Slack 21 × 5 105 对

合计:合并的微观分析数据集包含全部 949 个 TrustTrace 任务对。在之前的 HTML/审查工件中高亮的行标记有 selected_in_html_or_review=true

HTML 分析页面

分析页面 访问地址
Banking 分析 https://github.com/Autumn1101/SentiAgent-data/blob/main/analysis_artifacts/banking_analysis.html
Travel 分析 https://github.com/Autumn1101/SentiAgent-data/blob/main/analysis_artifacts/travel_analysis.html
Workspace 分析 https://github.com/Autumn1101/SentiAgent-data/blob/main/analysis_artifacts/workspace_analysis.html
Slack 分析 https://github.com/Autumn1101/SentiAgent-data/blob/main/analysis_artifacts/slack_analysis.html
搜集汇总
数据集介绍
main_image_url
构建方式
面向大语言模型安全对齐评估的挑战,SentiAgent-data数据集基于AgentDojo框架构建,涵盖Banking、Travel、Workspace和Slack四个典型智能体应用场景。数据集通过将用户任务与恶意注入任务系统配对形成评估单元,其中Workspace包含40个用户任务与14个注入任务构成的560对组合,Travel、Banking和Slack分别为140对、144对和105对,总计949对任务组合。每对任务均经过TrustTrace方法的微分析标注,生成完整的微分析数据集。原始运行日志、决策记录和任务产物被完整保存,为深入分析提供支撑。
特点
该数据集的显著特征在于其多维度的安全评估架构,通过安全语义标记区分注入成功与否,并以defense_success列反映防御效果。数据集提供完整的效用/安全结果矩阵,覆盖基线方法与TrustTrace方法在四个场景中的表现。微分析数据集包含全部949对TrustTrace任务对的详细分析,被先前HTML评审标记的关键行以selected_in_html_or_review字段标识。此外,数据集配套生成各场景的HTML分析页面,便于直观探索评估结果。
使用方法
使用者可通过读取datasets目录下的任务目录文件获取完整用户任务与注入任务列表,利用result_matrix文件获取各运行方法的效用与安全结果矩阵。微分析数据集以micro_analysis_dataset文件提供,支持按suite字段筛选特定场景或按selected_in_html_or_review字段定位关键分析条目。原始运行数据存放于raw_runs目录,包含摘要、决策日志等,适合深入复现与分析。Excel汇总文件包含了四个主要数据集的完整矩阵、微分析与任务目录,便于综合对比。
背景与挑战
背景概述
随着大语言模型(LLM)在自主智能体系统中的广泛应用,如何确保其行为的安全性与可靠性成为关键瓶颈。SentiAgent-data数据集应运而生,由研究团队于2024年创建,聚焦于评估LLM智能体在面对恶意提示注入攻击时的鲁棒性。该数据集覆盖Banking、Travel、Workspace和Slack四大场景,共计949个任务对,通过精细化的用户任务与注入任务组合,系统性地衡量智能体在安全威胁下的性能退化程度。其核心研究问题在于量化防御机制的有效性,并揭示智能体在复杂交互环境中的脆弱性。SentiAgent-data为智能体安全评估提供了标准化基准,推动了该领域从定性分析向定量评测的跨越,对构建可信AI系统具有深远影响。
当前挑战
SentiAgent-data所解决的领域挑战主要在于LLM智能体面临提示注入攻击时安全与效用的失衡。具体而言,现有智能体在设计时往往侧重任务完成效率,而忽视了恶意输入可能引发的行为失控风险。数据集构建过程中,挑战表现为多场景任务对的复杂映射:需要兼顾用户意图的多样性、注入策略的隐蔽性以及结果标注的一致性。例如,Workspace场景需覆盖40个用户任务与14个注入的560种组合,而Slack场景则需在有限任务对中提炼典型攻击模式。此外,防御成功与否的判断标准在不同子集中存在语义歧义,如安全语义中'defense_success'列需从原始布尔值反向推导,增加了数据处理的复杂度。这些挑战共同刻画了构建可靠安全评估基准的深层难题。
常用场景
经典使用场景
在智能代理安全领域,SentiAgent-data数据集被广泛用于评估和基准测试大型语言模型(LLM)驱动代理在面对恶意指令注入攻击时的鲁棒性。该数据集精心构建了涵盖工作区、旅行、银行和Slack四大套件的用户任务与注入任务配对,共计949对微分析样本,为研究者提供了系统性的测试平台。通过解析任务对中的安全失败或防御成功记录,研究人员能够量化不同代理架构在防范语义层面的安全威胁方面的效能,从而推动更可靠的代理系统设计。
实际应用
在实际部署中,SentiAgent-data数据集可被企业安全团队用于检测和加固基于LLM的企业级代理,如自动化客服系统、内部知识检索工具和多平台任务助手。例如,银行场景的144对任务可用于验证金融领域代理能否在用户查询中识别并阻断套取账户信息的恶意指令;旅行场景则可用于测试代理解读并执行复杂行程变更请求时的安全性边界。这些应用直接提升了代理服务在金融、政务、商务沟通等高风险环境中的信任度。
衍生相关工作
基于SentiAgent-data数据集,衍生了一系列具有影响力的学术工作。其中,TrustTrace方法论被提出以对代理的决策过程进行细粒度安全审计,该工具利用微分析数据集溯源每次任务交互中的安全失败路径。此外,研究者利用全结果矩阵开发了多维度防御评估框架,系统分析了提示清洗、拒绝采样和行为克隆等策略在不同套件上的效用损耗与安全增益。这些衍生工作共同推动了LLM代理安全从经验分析向量化评估的转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作