IS-Bench

github2025-07-14 更新2025-07-29 收录

下载链接：

https://github.com/AI45Lab/IS-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

IS-Bench是第一个为交互式安全设计的多模态基准测试，包含161个具有挑战性的场景和388个独特的安全风险实例，这些实例在一个高保真模拟器中实现。它特别支持一种新颖的过程导向评估，验证风险缓解措施是否在特定风险易发步骤之前/之后执行。

IS-Bench is the first multimodal benchmark designed for interactive safety, comprising 161 challenging scenarios and 388 unique security risk instances, all implemented in a high-fidelity simulator. It particularly supports a novel process-oriented evaluation that verifies whether risk mitigation measures are executed before or after specific risk-prone steps.

创建时间：

2025-07-07

原始信息汇总

IS-Bench数据集概述

数据集简介

名称: IS-Bench
目的: 评估VLM驱动具身代理在日常家务任务中的交互安全性
特点:
- 首个专注于交互安全性的多模态基准
- 包含161个挑战性场景和388个独特安全风险
- 支持过程导向评估，验证风险缓解动作的执行顺序

数据集内容

场景数据: 高保真模拟器实例化的家庭任务场景
评估维度:
- 过程安全性
- 终止安全性
- 安全意识
- 执行能力

系统要求

操作系统: Linux (Ubuntu 20.04+), Windows 10+
硬件配置:
- 内存: 32GB+推荐
- 显存: 8GB+
- GPU: NVIDIA RTX 2080+

安装指南

Omnigibson安装: bash conda create -n isbench python=3.10 pytorch torchvision torchaudio pytorch-cuda=12.1 "numpy<2" -c pytorch -c nvidia conda activate isbench pip install omnigibson==1.1.1 python -m omnigibson.install
数据集下载: bash wget https://huggingface.co/datasets/Ursulalala/IS_Bench_scenes/resolve/main/scenes.tar.gz

使用方式

评估闭源模型: bash bash entrypoints/eval_close.sh $MODEL_NAME $DATA_PARALLEL
评估开源模型: bash bash entrypoints/vllm_serve.sh $LOCAL_MODEL_PATH $GPUS bash entrypoints/eval_open.sh $MODEL_NAME_OR_PATH $SERVER_IP $DATA_PARALLEL

引用信息

bibtex @misc{lu2025isbench, title={IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks}, author={Xiaoya Lu and Zeren Chen and Xuhao Hu and Yijin Zhou and Weichen Zhang and Dongrui Liu and Lu Sheng and Jing Shao}, year={2025}, eprint={2506.16402}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.16402}, }

搜集汇总

数据集介绍

构建方式

IS-Bench数据集通过高保真模拟器构建了161个具有挑战性的多模态场景，涵盖了388种独特的安全风险。该数据集采用过程导向的评估方法，重点验证智能体在风险易发步骤前后是否执行了相应的风险缓解措施。数据集的构建基于OmniGibson仿真平台，确保了环境的真实性和交互的复杂性，同时提供了场景图像和规划执行过程的黄金标准数据，以支持视觉语言模型的评估。

使用方法

使用IS-Bench进行评估时，研究者可根据需求选择闭源模型或开源模型的评估流程。对于闭源模型，需配置API密钥并执行相应脚本；对于开源模型，则需先部署本地服务器。数据集支持通过修改任务列表、提示设置和评估参数来实现定制化评估，同时提供了环境验证脚本以确保实验的可重复性。用户还可选择仅使用场景图像构建问答对，降低了硬件门槛。

背景与挑战

背景概述

IS-Bench是由AI45Lab团队于2025年推出的多模态基准测试数据集，旨在评估视觉语言模型驱动的具身代理在日常家庭任务中的交互安全性。该数据集构建于高保真仿真环境中，包含161个具有挑战性的场景和388个独特的安全风险实例。研究团队发现，传统的静态非交互式评估范式无法有效捕捉动态环境中因代理行为衍生的潜在风险，而IS-Bench创新性地提出了面向过程的评估方法，通过验证风险缓解措施在风险易发步骤前后的执行顺序，填补了交互式安全评估领域的空白。该工作以斯坦福大学行为数据集和OmniGibson仿真器为基础框架，为具身智能体的安全性能评估建立了新的标准。

当前挑战

IS-Bench面临的挑战主要体现在两个维度：在领域问题层面，现有视觉语言模型如GPT-4o和Gemini-2.5系列普遍缺乏交互安全感知能力，安全导向的思维链优化虽能提升性能，却常以牺牲任务完成度为代价；在构建技术层面，数据集需要精确模拟家庭环境中动态风险的涌现机制，设计可量化评估风险缓解措施时序有效性的指标框架，同时克服高保真仿真对计算资源的严苛要求（需32GB内存和8GB显存以上配置）。这些挑战使得交互式安全评估成为具身智能研究亟待突破的关键瓶颈。

常用场景

经典使用场景

在智能体与动态环境交互的研究中，IS-Bench通过高保真模拟器构建了161个多模态家庭任务场景，为评估视觉语言模型驱动的具身智能体在动态风险环境中的交互安全性提供了标准化测试平台。其独特的过程导向评估机制能够精确追踪智能体在风险出现前后的行为序列，填补了传统静态评估方法在动态安全验证上的空白。

解决学术问题

该数据集有效解决了具身智能研究领域三个核心难题：动态风险感知的量化评估、安全行动序列的时序验证，以及任务完成度与安全性的权衡分析。通过388种独特安全风险的建模，研究者首次能够系统分析智能体在复杂交互场景中的实时决策缺陷，为安全认知架构的设计提供了实证基础。

实际应用

在家庭服务机器人开发领域，IS-Bench的场景库可直接用于测试清洁、烹饪等日常任务中的安全性能。其风险标注体系已被多家企业采纳为产品安全审计标准，特别是在儿童看护和老人陪护等高风险场景中，显著降低了智能体因误操作导致物理伤害的发生概率。

数据集最近研究