LordMoloi/sybilcore-agent-trust-v1

Name: LordMoloi/sybilcore-agent-trust-v1
Creator: LordMoloi
Published: 2026-04-10 17:45:38
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/LordMoloi/sybilcore-agent-trust-v1

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-classification language: - en tags: - agents - trust - security - behavioral-monitoring - sybilcore size_categories: - 10K<n<100K --- # SybilCore Agent Trust Benchmark v1 Runtime behavioral monitoring dataset for autonomous LLM agents. **GitHub**: https://github.com/zazmattaz-debug/sybilcore 17,677 labeled agent event streams. 1,297 real Moltbook agents + synthetic attack scenarios + 15,000 tournament strategies from Gemini Pro, GPT-4o, and Grok. Calibration: F1 0.9954, Recall 1.0, FPR 0.0039. MIT License.

提供机构：

LordMoloi

搜集汇总

数据集介绍

构建方式

在自主智能体安全评估领域，SybilCore Agent Trust Benchmark v1 数据集的构建融合了真实与合成数据，以全面覆盖多类行为模式。该数据集整合了1,297个真实Moltbook智能体的运行时事件流，并在此基础上注入了合成攻击场景，以模拟恶意或异常行为。同时，通过组织生成式模型（如Gemini Pro、GPT-4o和Grok）之间的锦标赛策略，生成了15,000条额外策略数据，最终形成了总计17,677条标注事件流，确保了行为监测的多样性与代表性。

特点

该数据集的核心特点在于其专注于智能体运行时行为监测，为评估LLM智能体的可信度提供了标准化基准。其标注质量经过严格校准，实现了F1分数0.9954、召回率1.0以及误报率0.0039的高性能指标，确保了评估结果的可靠性与精确性。数据集规模适中（介于1万至10万条之间），内容为英文，并专门针对智能体、信任、安全及行为监测等研究主题，为相关领域的模型训练与验证提供了高质量资源。

使用方法

该数据集主要应用于文本分类任务，特别是智能体行为的安全性与可信度评估。研究人员可利用其标注的事件流数据，训练或测试行为监测模型，以识别智能体在运行过程中的异常或恶意活动。数据集遵循MIT许可协议，允许广泛的学术与商业用途，用户可通过其GitHub仓库获取详细文档与代码，从而集成到现有的智能体评估框架中，推动可信人工智能系统的发展。

背景与挑战

背景概述

随着大型语言模型驱动的自主智能体在复杂任务中的广泛应用，其行为安全性与可信度评估成为人工智能安全领域的核心议题。SybilCore Agent Trust Benchmark v1数据集于2024年由SybilCore研究团队创建，旨在通过运行时行为监控数据，系统化评估智能体在动态环境中的可信行为。该数据集整合了真实智能体运行记录、合成攻击场景及多模型对抗策略，为智能体行为分析与安全验证提供了标准化基准，推动了可信人工智能系统的发展。

当前挑战

该数据集致力于解决自主智能体行为可信度分类的挑战，包括识别恶意攻击、异常行为检测及策略对抗性评估。构建过程中面临多源异构数据融合的复杂性，需平衡真实场景有限性与合成数据代表性；同时，标注高动态事件流对行为模式的精确捕捉提出了较高要求，而跨模型策略的泛化性验证亦增加了基准建立的难度。

常用场景

经典使用场景

在自主大语言模型代理的运行时行为监控领域，SybilCore Agent Trust Benchmark v1 数据集为评估代理在复杂交互环境中的可信度提供了基准。该数据集通过整合真实代理事件流与合成攻击场景，模拟了代理在面临恶意行为或异常操作时的表现，常用于训练和验证行为分类模型，以识别代理是否偏离预期安全策略。其经典使用场景包括在模拟对抗环境中测试代理的鲁棒性，以及为信任评估系统提供标注数据，支持对代理行为的实时分析与决策。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，主要集中在代理行为分析与信任建模领域。例如，研究人员利用其标注数据开发了新型深度学习分类器，用于改进代理异常检测的精度；同时，该数据集也启发了对抗性训练方法的创新，通过模拟攻击场景增强代理的防御能力。这些工作进一步拓展了自主代理安全监控的边界，并为多代理系统中的信任机制设计提供了实证基础。

数据集最近研究