Equitas

Hugging Face2026-02-24 更新2026-02-25 收录

下载链接：

https://huggingface.co/datasets/akshan-main/Equitas

下载链接

链接失效反馈

官方服务：

资源简介：

Equitas 是一个用于评估分层多 LLM 委员会在对抗性腐败下的聚合策略的基准测试。它测量不同聚合方法在部分委员会成员被对手破坏时如何保持效用（任务性能）和公平性（跨利益相关者群体的公平结果）。数据集包含 15 个结果表格（CSV 格式）、13 个 YAML 配置文件以及 6 个高质量 PNG 图表。实验使用 gpt-4o-mini 作为底层 LLM，通过模拟治理任务（柏拉图的三个公民阶层城市）进行。数据集涵盖了 8 种基线聚合方法（包括 Oracle）、4 种对手类型和不同的腐败率（ε ∈ {0.00, 0.25, 0.50, 0.75}）。实验结果显示，在低腐败率下，大多数方法表现相似，而在高腐败率下，方法之间的差异显著。数据集的局限性包括仅使用单一 LLM 和任务域，以及中等规模的实验。

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在人工智能治理研究领域，构建一个能够评估多智能体系统在对抗性环境下的鲁棒性基准至关重要。Equitas数据集的构建基于一个模拟柏拉图城邦治理任务的实验框架，该任务涉及三个公民阶层。研究采用GPT-4o-mini作为底层大语言模型，通过分层多智能体委员会结构，系统引入了四种对抗性攻击类型和不同腐败率。实验配置通过13个YAML文件精确设定，确保了参数的可复现性。数据生成过程包含40轮模拟，每个条件进行3次独立运行，最终结果通过自助法计算置信区间，从而形成了一套涵盖效用、公平性和最差群体效用的综合评估表格。

特点

该数据集的核心特征在于其专注于多智能体委员会在腐败环境下的鲁棒性评估。它不仅衡量不同聚合策略在对抗性攻击下的任务效用保持能力，还引入Jain公平性指数来评估跨利益相关者群体的结果公平性。数据集提供了15个结构化结果表格，详细记录了从总体排名到具体参数扫描的完整实验数据，并辅以6张高质量图表直观展示效用与腐败率、委员会规模等关键关系。其独特之处在于包含了分层与扁平架构的对比、中期腐败恢复轨迹分析以及福利与公平性的帕累托前沿探索，为理解复杂多智能体系统的动态行为提供了多维视角。

使用方法

研究人员可通过该数据集系统评估不同聚合算法在对抗性环境下的性能。使用前需通过PyPI安装equitas-benchmark工具包，并参考configs目录下的YAML配置文件复现实验条件。数据分析可聚焦于tables目录下的CSV表格，例如通过B1表格比较9种聚合器的整体排名，或利用B2表格分析不同腐败率下的效用变化。对于算法开发，可基于B8表格的帕累托最优点进行福利-公平性权衡优化。可视化分析可直接调用figures目录中的PNG图表，或根据原始数据生成定制化图示。该数据集特别适用于研究多智能体系统鲁棒性、公平机器学习以及对抗性环境下的决策机制等领域。

背景与挑战

背景概述

在人工智能领域，多智能体系统与大型语言模型（LLM）的融合正成为前沿研究方向，尤其在涉及公平性、鲁棒性与决策聚合的复杂场景中。Equitas基准数据集于2026年由研究人员Krithick, Akshan创建，旨在系统评估分层多LLM委员会在对抗性腐败环境下的聚合策略效能。该数据集围绕柏拉图城邦治理模拟任务展开，核心研究问题聚焦于如何在部分委员会成员被恶意操控时，维持系统的整体效用与跨利益群体公平性。通过引入多种腐败类型与聚合算法对比，Equitas为多智能体协作的鲁棒性研究提供了标准化实验框架，对推动可信赖人工智能系统的发展具有重要参考价值。

当前挑战

Equitas数据集所针对的领域挑战在于，多LLM委员会在现实部署中易受对抗性攻击，导致集体决策的效用与公平性失衡。具体而言，如何设计聚合机制以抵御自私、协同、定时与欺骗等多样化腐败策略，并在高腐败率下保持稳定性能，是该领域亟待解决的核心难题。在数据集构建过程中，研究者面临实验规模有限、任务领域单一等挑战：所有实验均基于单一LLM（gpt-4o-mini）与理想化治理模拟，缺乏异构模型与真实场景的验证；同时，中等规模的实验设置（40轮次、3次重复）可能无法充分捕捉长期动态模式，且依赖LLM生成评估而非人类标注，限制了结论的泛化能力。

常用场景

实际应用

在实际应用层面，Equitas数据集为需要分布式决策的领域提供了关键参考，例如自动化治理平台、多智能体金融风控系统与协作机器人网络。通过模拟对抗性攻击场景，该数据集帮助工程师评估不同聚合算法在现实腐败威胁下的稳定性，指导设计更具韧性的决策管道。其层级委员会框架尤其适用于需要兼顾效率与公平的组织结构，如公共政策模拟或企业风险管理，为实际部署中的算法选择与参数调优提供数据驱动的见解。

衍生相关工作

围绕Equitas数据集，学术界衍生出一系列经典研究工作，主要集中在鲁棒聚合算法的比较与改进上。例如，基于乘性权重（MW）与监督者（Supervisor）方法的扩展研究，探索了在动态腐败环境中的自适应权重更新机制。同时，该数据集激发了关于层级结构与扁平架构在对抗性场景下性能差异的理论分析，以及委员会规模与性能间倒U型关系的深入探讨。这些工作进一步推动了多智能体鲁棒性、公平性权衡与对抗性机器学习等交叉领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集