ManyIH-Bench

github2026-04-13 更新2026-04-17 收录

下载链接：

https://github.com/JHU-CLSP/ManyIH

下载链接

链接失效反馈

官方服务：

资源简介：

ManyIH-Bench是一个用于评估大型语言模型（LLM）在任意多权限级别下指令冲突解决能力的基准数据集。它包含853个代理任务，涵盖多达12个权限级别，远超前人工作中的2-3个级别。数据集分为两个子集：编码（427个样本）和指令遵循（426个样本），分别通过单元测试、风格检查器和LLM评判进行全程序化评估。

ManyIH-Bench is a benchmark dataset for evaluating the instruction conflict resolution capabilities of large language models (LLMs) across arbitrary multi-permission levels. It includes 853 agent tasks covering up to 12 permission levels, which far exceeds the 2-3 levels utilized in prior research. The dataset is split into two subsets: Coding (427 samples) and Instruction Following (426 samples). The Coding subset is fully programmatically evaluated via unit tests and style checkers, while the Instruction Following subset is evaluated via LLM judges.

创建时间：

2026-04-03

原始信息汇总

ManyIH-Bench 数据集概述

数据集基本信息

数据集名称：ManyIH-Bench
核心目标：评估大型语言模型（LLM）在任意多权限级别下的指令冲突解决能力。
主要问题：解决现有指令层级（IH）实现中因固定、少量权限级别（通常少于五个）和刚性角色标签（如 system > user）导致的固定且少层级瓶颈问题，该问题不足以应对现实世界中的智能体场景。

数据集构成与规模

总样本量：853个智能体任务。
支持权限级别：最多可达12个权限级别（先前工作通常为2-3个）。
当前最佳模型性能：即使是最先进的前沿模型，准确率也仅为42.7%，表明多层级冲突解决是一个具有挑战性且尚未完全解决的能力。

数据子集

ManyIH-Bench包含两个子集：

1. 代码生成子集

样本数量：427个样本。
任务类型：代码生成任务，附带有不同权限级别的冲突风格指令。
评估方式：通过单元测试和风格检查器进行完全程序化评估。

2. 指令遵循子集

样本数量：426个样本。
任务类型：涵盖46个领域的智能体场景，并增加了带有权限注释的冲突约束。
评估方式：使用代码检查器和LLM评判员进行评估。

核心方法与接口

方法名称：多层级指令层级
核心机制：通过权限提示接口为每条指令动态分配一个权限值，并通过比较这些值来解决冲突。

数据来源与许可

代码生成子集基础：基于 Austin 等人的 MBPP，采用 CC-BY-4.0 许可。
指令遵循子集基础：基于 Qi 等人的 AgentIF，采用 MIT 许可。
设计灵感：代码生成子集的设计灵感来源于 Harada 等人的 StyleMBPP 编码风格框架。

引用信息

如需在研究中引用本数据集，请使用以下BibTeX条目： bibtex @misc{zhang2026manytierinstructionhierarchyllm, title={Many-Tier Instruction Hierarchy in LLM Agents}, author={Jingyu Zhang and Tianjian Li and William Jurayj and Hongyuan Zhan and Benjamin Van Durme and Daniel Khashabi}, year={2026}, eprint={2604.09443}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2604.09443}, }

搜集汇总

数据集介绍

构建方式

在智能体系统日益复杂的背景下，ManyIH-Bench数据集的构建旨在突破传统指令层级固定的瓶颈。其核心方法是通过特权提示接口为每条指令动态分配一个特权值，从而在多达12个特权层级上模拟真实场景中的指令冲突。该数据集包含853个智能体任务，分为编码与指令遵循两个子集。编码子集基于MBPP数据集，植入了不同特权层级的风格冲突指令；指令遵循子集则源自AgentIF数据集，并注入了带特权标注的约束冲突。这种构建方式通过程序化单元测试、风格检查器以及大型语言模型评判，实现了对冲突解决能力的系统化评估。

使用方法

使用ManyIH-Bench数据集进行评估，首先需完成环境配置，通过安装包并设置相应后端的API密钥（如OpenRouter、AWS Bedrock或本地vLLM服务器）。评估过程可通过命令行工具便捷启动，支持对整个数据集或特定子集（编码或指令遵循）进行测试。用户需指定待评估的模型，模型字符串格式因后端而异。对于指令遵循子集，还可单独指定用于评判的模型。评估完成后，结果将以结构化JSON格式保存，包含总体统计与逐样本详情。高级用法允许用户通过查看器审阅数据、控制并发数、限制样本量或进行结果再分析，为深入研究提供了灵活性。需特别注意，编码子集的评估会执行模型生成的代码，因此建议在沙箱环境中运行以确保安全。

背景与挑战

背景概述

在大型语言模型（LLM）代理的交互范式中，指令往往源自多个具有不同信任等级和权威性的来源，例如系统消息、用户提示、工具输出及其他代理。传统指令层级（IH）方法通常预设有限且固定的特权等级，依赖诸如“系统>用户”的刚性角色标签，这种设计在复杂多变的现实代理场景中形成了固定且少层的瓶颈。为突破此局限，约翰斯·霍普金斯大学人类语言技术中心（JHU-CLSP）的研究团队于2026年提出了Many-Tier Instruction Hierarchy（ManyIH）框架，并同步构建了ManyIH-Bench基准数据集。该数据集旨在系统评估LLM代理在动态、多层特权环境下的指令冲突消解能力，其核心研究问题聚焦于如何使模型依据动态赋予的权限值，在多达12个特权层级间进行精准的决策。该基准的建立，为推进LLM在开放、多源指令环境下的鲁棒性与可靠性研究提供了关键的评估工具。

当前挑战

ManyIH-Bench所针对的核心领域挑战，在于解决LLM代理在接收来自多个、具有不同权威等级来源的指令时，如何有效消解指令冲突并执行正确操作。现有方法通常仅支持2至3个固定特权层级，难以模拟真实世界中权限结构动态、细粒度的复杂场景。该数据集通过引入多达12个特权等级，旨在评估模型在“多层级指令层级”这一前沿问题上的性能，当前最佳前沿模型的准确率仅为42.7%，凸显了该能力尚未被充分解决的现状。在数据集构建过程中，挑战主要源于如何将基础任务（如MBPP的代码生成与AgentIF的指令遵循）系统性地转化为包含权限冲突的评估样本，并设计出兼顾功能性（通过单元测试）与约束遵循性（通过风格检查器与LLM评判）的自动化评估流程，以确保评测的严谨性与可复现性。

常用场景

经典使用场景

在大型语言模型代理的复杂交互环境中，指令冲突的解析是核心挑战之一。ManyIH-Bench作为评估基准，其经典使用场景在于系统性地测试模型在多达12个特权层级下的指令优先级处理能力。研究者通过该数据集中的853个代理任务，模拟现实世界中多源指令（如系统消息、用户提示、工具输出）同时存在的场景，评估模型如何依据动态分配的特权值来裁决冲突，从而衡量模型在多层次权限体系中的推理与遵从性能。

解决学术问题

该数据集主要解决了智能代理系统中指令层级固化与层级过少导致的学术研究瓶颈。传统方法通常依赖少数固定特权角色（如“系统>用户”），难以适应真实场景中灵活多变的权限关系。ManyIH-Bench通过引入特权提示接口和可扩展的层级设计，为研究社区提供了量化评估模型在动态、多层级指令冲突中解决能力的标准工具，推动了指令遵从性、代理安全性与鲁棒性等前沿方向的发展。

实际应用

在实际应用层面，ManyIH-Bench能够指导开发更可靠、安全的LLM代理系统。例如，在自动化代码生成、多智能体协作、人机交互界面等场景中，系统需处理来自不同权限来源的指令。该数据集帮助工程师测试和优化模型，确保其在面对冲突约束时能正确遵循高特权指令，避免因指令混淆导致的功能错误或安全风险，从而提升复杂AI系统的实用性与可信度。

数据集最近研究