five

MiniGrid-Empty-6x6v0

收藏
arXiv2025-06-03 更新2025-06-05 收录
下载链接:
https://github.com/Farama-Foundation/Minigrid
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由独立研究者Ram Potham创建,用于评估LLM Agent在面临任务冲突时对安全原则的遵守程度。数据集包含三个核心原则和结构化场景,旨在测试LLM Agent对层次化指令的遵循能力。研究结果表明,即使在简单的环境中,LLM Agent的行为也会受到安全原则的显著影响,表明安全评估需要区分在冲突下的故意遵守和由于能力限制而导致的偶然不违反。该数据集为评估LLM Agent的可控性和指令遵循性提供了基础证据,有助于推动人工智能治理和安全的发展。

This dataset was created by independent researcher Ram Potham to evaluate the compliance of LLM Agents with safety principles when facing task conflicts. It contains three core principles and structured scenarios, designed to test the ability of LLM Agents to follow hierarchical instructions. Research findings indicate that even in simple environments, the behavior of LLM Agents is significantly influenced by safety principles, which suggests that safety assessments need to distinguish between intentional compliance under conflicts and accidental non-compliance caused by capacity limitations. This dataset provides foundational evidence for evaluating the controllability and instruction-following capability of LLM Agents, and contributes to the advancement of AI governance and safety.
提供机构:
Independent Researcher
创建时间:
2025-06-03
原始信息汇总

Minigrid 数据集概述

数据集简介

  • Minigrid 是一个包含离散网格世界环境的库,用于强化学习研究。
  • 环境遵循 Gymnasium 标准 API。
  • 设计特点:轻量级、快速、易于定制。

环境分类

1. Minigrid 环境

  • 原始 Minigrid 库中的环境。
  • 特点:
    • 三角形代理,离散动作空间。
    • 2D 地图,包含墙壁、熔岩、动态障碍等。
    • 任务通过 mission 字符串描述。
    • 支持多种目标导向和分层任务(如拾取箱子、用钥匙开门、迷宫导航等)。
  • 可调性:支持通过程序调整大小/复杂度,适用于课程学习或难度微调。

2. BabyAI 环境

  • 源自 BabyAI 项目库。
  • 特点:
    • 基于 Minigrid 环境,增加了合成自然语言指令功能。
    • 研究重点:基础语言学习。
    • 任务示例:“将红球放在你左边的盒子旁边”。

安装与支持

  • 安装命令:pip install minigrid
  • 支持 Python 版本:3.7、3.8、3.9、3.10、3.11。
  • 支持平台:Linux 和 macOS(Windows 可提交 PR,但不官方支持)。

训练资源

  • 示例代码库:rl-starter-files
  • 特点:包含使用 RL 算法训练 Minigrid 环境的示例,默认超参数已知可收敛。

引用

Minigrid 引用

bibtex @inproceedings{MinigridMiniworld23, author = {Maxime Chevalier{-}Boisvert and Bolun Dai and Mark Towers and Rodrigo Perez{-}Vicente and Lucas Willems and Salem Lahlou and Suman Pal and Pablo Samuel Castro and Jordan Terry}, title = {Minigrid {&} Miniworld: Modular {&} Customizable Reinforcement Learning Environments for Goal-Oriented Tasks}, booktitle = {Advances in Neural Information Processing Systems 36, New Orleans, LA, USA}, month = {December}, year = {2023}, }

BabyAI 引用

bibtex @article{chevalier2018babyai, title={Babyai: A platform to study the sample efficiency of grounded language learning}, author={Chevalier-Boisvert, Maxime and Bahdanau, Dzmitry and Lahlou, Salem and Willems, Lucas and Saharia, Chitwan and Nguyen, Thien Huu and Bengio, Yoshua}, journal={arXiv preprint arXiv:1810.08272}, year={2018} }

其他资源

搜集汇总
数据集介绍
main_image_url
构建方式
MiniGrid-Empty-6x6v0数据集的构建基于一个简洁的6x6网格世界环境,旨在评估大型语言模型(LLM)代理在任务与安全原则冲突时的行为表现。该数据集通过设计三种核心安全原则(如避免进入红色区域、禁止拾取特定物品等),并在网格环境中设置冲突可避免和冲突不可避免的场景,以系统化地测试代理的指令遵循能力。每个场景均包含原则启用和关闭的对照条件,确保实验设计的严谨性和可解释性。
特点
该数据集的特点在于其高度模块化和可解释性。通过简化的网格环境,研究者能够清晰观察代理在面临原则冲突时的决策过程。数据集包含多样化的冲突场景,涵盖空间导航、物品交互和流程完整性等多个维度,为评估代理的层次化原则遵循能力提供了全面基准。此外,数据集记录了丰富的行为指标(如任务成功率、原则遵循率、步数统计等),支持对代理行为的多角度分析。
使用方法
使用该数据集时,研究者首先需为LLM代理配置系统提示(包含核心原则)和用户提示(包含具体任务)。代理随后在MiniGrid环境中交互,其行为将根据预设指标自动记录。通过对比原则启用与关闭条件下的表现差异,可量化评估代理对安全原则的遵循程度。数据集支持多种分析维度,包括跨模型比较、原则类型影响分析以及行为模式挖掘,适用于AI安全性、可控性及指令遵循能力的研究场景。
背景与挑战
背景概述
MiniGrid-Empty-6x6v0是由Farama基金会开发的MiniGrid系列环境中的一个简化网格世界,专为强化学习和AI安全研究设计。该数据集在2023年由Chevalier-Boisvert等研究者正式发布,作为测试智能体基础导航和指令遵循能力的标准化平台。其核心研究价值在于通过6x6的离散空间和有限动作集,为评估LLM智能体在冲突场景下的安全原则遵循性提供了高度可控的实验条件。在技术AI治理(TAIG)领域,该环境因其可解释性成为验证分层指令优先级的基准工具,尤其适用于探测智能体对不可违反安全规则的坚守能力。
当前挑战
该数据集面临的挑战主要体现在两方面:在领域问题层面,需要解决LLM智能体在目标冲突时对高层安全原则的遵循可靠性,例如当任务指令要求穿越危险区域时,智能体能否坚守‘绝不进入红色区域’的核心原则;在构建层面,需平衡环境简化带来的实验可控性与现实场景复杂性之间的差距,例如6x6网格可能无法充分模拟真实世界中的多步决策复杂度。此外,评估指标的设计需区分智能体真实的原则遵循行为与因能力不足导致的偶然合规,这对构建能准确反映智能体认知状态的度量标准提出了挑战。
常用场景
经典使用场景
在人工智能安全研究领域,MiniGrid-Empty-6x6v0数据集被广泛应用于评估大型语言模型(LLM)代理在简单网格世界环境中对高层次安全原则的遵循能力。该数据集通过设计冲突不可避免和冲突可避免的场景,测试代理在任务指令与安全原则冲突时的行为选择,成为研究LLM基础可控性的重要工具。
实际应用
在实际应用中,该数据集的方法论已被整合到技术性AI治理(TAIG)框架中,用于早期检测智能代理的控制缺陷。其简单可解释的特性使其适用于教育场景,帮助研究人员直观理解LLM在安全关键场景中的决策机制,并为开发更复杂的AI安全基准奠定基础。
衍生相关工作
基于该数据集的研究范式,后续工作扩展出更复杂的评估框架,如FollowBench多级约束遵循基准和Agent-SafetyBench安全评估系统。相关成果还启发了对间接提示注入攻击(如InjecAgent研究)和机器人安全约束(如Plug in the Safety Chip)等衍生领域的探索,形成AI安全研究的重要分支。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作