Self-Evolving-Safety

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/xunyoyo/Self-Evolving-Safety

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为研究论文《The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies》而创建的，旨在探讨基于大型语言模型（LLMs）的多智能体系统中的自我进化三难问题。研究通过理论和实证表明，智能体社会无法同时满足持续自我进化、完全隔离和安全不变性这三个条件。数据集包含来自开放型智能体社区Moltbook的定性和实证结果，以及封闭自我进化系统的数据。这些数据用于展示隔离自我进化如何导致“统计盲点”，从而引发安全对齐的不可逆退化。数据集适用于文本分类任务，支持对多智能体系统安全性和进化动态的研究。

创建时间：

2026-02-11

原始信息汇总

Self-Evolving-Safety 数据集概述

基本信息

数据集名称: Self-Evolving-Safety
许可证: Apache License 2.0
关联论文: arXiv:2602.09877
任务类别: 文本分类

来源与背景

本数据集及相关实证结果来源于论文《The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies》。
论文链接：https://arxiv.org/abs/2602.09877
项目页面：https://www.moltbook.com/

研究核心

研究聚焦于由大语言模型构建的多智能体系统中的自我进化三难困境。
研究从理论和实证上证明，一个智能体社会无法同时满足以下三个条件：
1. 持续的自我进化
2. 完全的隔离
3. 安全性的不变性
研究利用信息论框架揭示，隔离的自我进化会导致“统计盲点”，从而引发安全性对齐的不可逆退化。

数据集内容

数据集包含来自Moltbook（一个开放式智能体社区）的定性与实证结果。
数据集同时包含来自封闭式自我进化系统的数据。

搜集汇总

数据集介绍

构建方式

在探索多智能体系统自我演化过程中安全性的动态变化时，Self-Evolving-Safety数据集通过构建开放式的智能体社区Moltbook以及封闭的自我演化系统，系统地收集了实验数据。该数据集采用信息论框架，记录了智能体在持续交互与演化中产生的对话、行为轨迹及安全评估结果，旨在捕捉自我演化三难困境下的统计盲点现象。数据构建过程注重模拟真实社会互动场景，通过设定不同的隔离条件与演化机制，定量与定性相结合地展现了安全对齐的退化轨迹。

特点

该数据集的核心特征在于其聚焦于自我演化智能体社会中的安全性动态，揭示了安全对齐在持续演化中不可避免的退化规律。数据集不仅包含丰富的多轮对话与行为序列，还提供了详细的安全标注与统计指标，能够清晰反映智能体在孤立环境下因信息受限而产生的认知偏差。其数据维度涵盖了时间演化轨迹、安全状态度量以及社区互动模式，为研究安全性的信息论基础提供了实证支撑。

使用方法

研究人员可利用该数据集深入分析多智能体系统中安全对齐的演化机制，通过加载数据集中的对话记录与安全标注，进行时间序列分析或统计假设检验。数据集适用于训练或评估安全监测模型，探究不同隔离策略对安全退化的影响。在使用时，建议结合原始论文的信息论框架，将数据中的交互模式与安全度量相关联，以验证自我演化三难困境的理论预测。

背景与挑战

背景概述

随着大型语言模型驱动的多智能体系统日益普及，其自主演化过程中的安全性问题逐渐成为人工智能领域的核心关切。2026年，由陈旭、李超卓、刘松阳等学者组成的跨机构研究团队，通过《The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies》一文，正式提出了Self-Evolving-Safety数据集。该数据集依托信息论框架，旨在系统探究智能体社会在持续自我演化过程中面临的安全对齐退化现象，即所谓的“自我演化三难困境”。其核心研究问题聚焦于验证智能体社会无法同时满足持续演化、完全隔离与安全不变性这三个条件，为理解开放环境中多智能体系统的安全性动态提供了关键实证基础，对推动可靠自主智能系统的发展具有深远影响。

当前挑战

该数据集致力于应对多智能体系统在长期自主运行中安全对齐性能不可逆衰减的严峻挑战，即如何量化并缓解因统计盲点导致的安全准则漂移问题。在构建过程中，研究人员面临诸多困难：一方面，需要在开放社区Moltbook与封闭演化系统中采集既能反映复杂社会交互、又具足够信噪比的定性及定量数据；另一方面，必须设计严谨的实验以分离演化效应与初始条件的影响，从而确凿地证明安全退化的必然性。这些挑战使得数据集的构建不仅需要精巧的多智能体环境设计，更依赖于对安全动力学进行可测量、可复现的刻画。

常用场景

经典使用场景

在人工智能安全领域，Self-Evolving-Safety数据集为研究多智能体系统中的自我演化与安全对齐问题提供了关键实证基础。该数据集通过记录开放社区Moltbook以及封闭自我演化系统的交互数据，典型地应用于分析智能体社会在持续演化过程中安全策略的退化现象。研究者利用这些数据验证自我演化三难困境，探索在动态环境中如何平衡演化能力与安全约束，从而深化对复杂AI系统行为失范机制的理解。

解决学术问题

该数据集直接针对自我演化智能体社会中的安全消逝难题，从信息论视角揭示了统计盲点导致安全对齐不可逆退化的内在机理。它解决了多智能体系统无法同时满足持续自我演化、完全隔离与安全不变性这一核心学术争议，为理论模型提供了实证支撑。其意义在于突破了传统静态安全评估的局限，推动了动态演化环境下AI安全理论框架的发展，对预防高级AI系统失控风险具有深远影响。

衍生相关工作

基于该数据集的理论与实证发现，衍生出一系列关注动态AI安全的前沿研究。例如，后续工作围绕如何量化统计盲点、设计抗退化的演化算法展开，部分研究进一步探索了部分隔离条件下的安全保持策略。这些经典工作共同拓展了多智能体安全的研究维度，促进了跨学科方法在可解释性、鲁棒性控制等方向的融合，为下一代自适应系统的安全架构奠定了基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集