IS-Bench
收藏IS-Bench数据集概述
数据集简介
- 名称: IS-Bench
- 目的: 评估VLM驱动具身代理在日常家务任务中的交互安全性
- 特点:
- 首个专注于交互安全性的多模态基准
- 包含161个挑战性场景和388个独特安全风险
- 支持过程导向评估,验证风险缓解动作的执行顺序
数据集内容
- 场景数据: 高保真模拟器实例化的家庭任务场景
- 评估维度:
- 过程安全性
- 终止安全性
- 安全意识
- 执行能力
系统要求
- 操作系统: Linux (Ubuntu 20.04+), Windows 10+
- 硬件配置:
- 内存: 32GB+推荐
- 显存: 8GB+
- GPU: NVIDIA RTX 2080+
安装指南
-
Omnigibson安装: bash conda create -n isbench python=3.10 pytorch torchvision torchaudio pytorch-cuda=12.1 "numpy<2" -c pytorch -c nvidia conda activate isbench pip install omnigibson==1.1.1 python -m omnigibson.install
-
数据集下载: bash wget https://huggingface.co/datasets/Ursulalala/IS_Bench_scenes/resolve/main/scenes.tar.gz
使用方式
-
评估闭源模型: bash bash entrypoints/eval_close.sh $MODEL_NAME $DATA_PARALLEL
-
评估开源模型: bash bash entrypoints/vllm_serve.sh $LOCAL_MODEL_PATH $GPUS bash entrypoints/eval_open.sh $MODEL_NAME_OR_PATH $SERVER_IP $DATA_PARALLEL
引用信息
bibtex @misc{lu2025isbench, title={IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks}, author={Xiaoya Lu and Zeren Chen and Xuhao Hu and Yijin Zhou and Weichen Zhang and Dongrui Liu and Lu Sheng and Jing Shao}, year={2025}, eprint={2506.16402}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.16402}, }




