LordMoloi/sybilcore-agent-trust-v1
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/LordMoloi/sybilcore-agent-trust-v1
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-classification
language:
- en
tags:
- agents
- trust
- security
- behavioral-monitoring
- sybilcore
size_categories:
- 10K<n<100K
---
# SybilCore Agent Trust Benchmark v1
Runtime behavioral monitoring dataset for autonomous LLM agents.
**GitHub**: https://github.com/zazmattaz-debug/sybilcore
17,677 labeled agent event streams. 1,297 real Moltbook agents + synthetic attack scenarios + 15,000 tournament strategies from Gemini Pro, GPT-4o, and Grok.
Calibration: F1 0.9954, Recall 1.0, FPR 0.0039.
MIT License.
提供机构:
LordMoloi
搜集汇总
数据集介绍

构建方式
在自主智能体安全评估领域,SybilCore Agent Trust Benchmark v1 数据集的构建融合了真实与合成数据,以全面覆盖多类行为模式。该数据集整合了1,297个真实Moltbook智能体的运行时事件流,并在此基础上注入了合成攻击场景,以模拟恶意或异常行为。同时,通过组织生成式模型(如Gemini Pro、GPT-4o和Grok)之间的锦标赛策略,生成了15,000条额外策略数据,最终形成了总计17,677条标注事件流,确保了行为监测的多样性与代表性。
特点
该数据集的核心特点在于其专注于智能体运行时行为监测,为评估LLM智能体的可信度提供了标准化基准。其标注质量经过严格校准,实现了F1分数0.9954、召回率1.0以及误报率0.0039的高性能指标,确保了评估结果的可靠性与精确性。数据集规模适中(介于1万至10万条之间),内容为英文,并专门针对智能体、信任、安全及行为监测等研究主题,为相关领域的模型训练与验证提供了高质量资源。
使用方法
该数据集主要应用于文本分类任务,特别是智能体行为的安全性与可信度评估。研究人员可利用其标注的事件流数据,训练或测试行为监测模型,以识别智能体在运行过程中的异常或恶意活动。数据集遵循MIT许可协议,允许广泛的学术与商业用途,用户可通过其GitHub仓库获取详细文档与代码,从而集成到现有的智能体评估框架中,推动可信人工智能系统的发展。
背景与挑战
背景概述
随着大型语言模型驱动的自主智能体在复杂任务中的广泛应用,其行为安全性与可信度评估成为人工智能安全领域的核心议题。SybilCore Agent Trust Benchmark v1数据集于2024年由SybilCore研究团队创建,旨在通过运行时行为监控数据,系统化评估智能体在动态环境中的可信行为。该数据集整合了真实智能体运行记录、合成攻击场景及多模型对抗策略,为智能体行为分析与安全验证提供了标准化基准,推动了可信人工智能系统的发展。
当前挑战
该数据集致力于解决自主智能体行为可信度分类的挑战,包括识别恶意攻击、异常行为检测及策略对抗性评估。构建过程中面临多源异构数据融合的复杂性,需平衡真实场景有限性与合成数据代表性;同时,标注高动态事件流对行为模式的精确捕捉提出了较高要求,而跨模型策略的泛化性验证亦增加了基准建立的难度。
常用场景
经典使用场景
在自主大语言模型代理的运行时行为监控领域,SybilCore Agent Trust Benchmark v1 数据集为评估代理在复杂交互环境中的可信度提供了基准。该数据集通过整合真实代理事件流与合成攻击场景,模拟了代理在面临恶意行为或异常操作时的表现,常用于训练和验证行为分类模型,以识别代理是否偏离预期安全策略。其经典使用场景包括在模拟对抗环境中测试代理的鲁棒性,以及为信任评估系统提供标注数据,支持对代理行为的实时分析与决策。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,主要集中在代理行为分析与信任建模领域。例如,研究人员利用其标注数据开发了新型深度学习分类器,用于改进代理异常检测的精度;同时,该数据集也启发了对抗性训练方法的创新,通过模拟攻击场景增强代理的防御能力。这些工作进一步拓展了自主代理安全监控的边界,并为多代理系统中的信任机制设计提供了实证基础。
数据集最近研究
最新研究方向
在人工智能代理安全领域,随着大型语言模型驱动的自主代理日益普及,其运行时行为监控成为保障系统可信度的关键。SybilCore Agent Trust Benchmark v1数据集通过整合真实代理事件流与合成攻击场景,为代理信任评估提供了标准化基准。当前研究聚焦于利用该数据集开发高效的行为异常检测算法,以应对对抗性策略注入等安全威胁,同时探索多模型代理在复杂任务中的信任校准机制,旨在提升代理系统的鲁棒性与可靠性,推动安全可信人工智能代理的实际部署与应用。
以上内容由遇见数据集搜集并总结生成



