EPIC-Bench

github2026-05-16 更新2026-05-17 收录

下载链接：

https://github.com/rxc205/EPIC-Bench-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

EPIC-Bench是一个基于掩码定位的基准，旨在评估视觉语言模型在具身场景中的视觉感知能力，涵盖目标定位、导航导向感知和操作导向感知三个高级类别和23种任务类型，遵循现实的具身工作流程。

EPIC-Bench is a mask localization-based benchmark designed to evaluate the visual perception capabilities of vision-language models in embodied scenarios. It covers three high-level categories including target localization, navigation-oriented perception and manipulation-oriented perception, as well as 23 task types, and follows realistic embodied workflows.

创建时间：

2026-05-15

原始信息汇总

EPIC-Bench 数据集概述

数据集简介

EPIC-Bench 是一个以掩码定位（Mask-Grounding）为基础的基准测试，旨在评估视觉语言模型（VLM）在**具身场景（Embodied Scenarios）中的视觉感知（Visual Perception）**能力。

数据集构成

任务类别

EPIC-Bench 涵盖 3个高层类别（High-Level Categories） 和 23种任务类型（Task Types），遵循真实的具身工作流：

🎯 目标定位（TargetLocalization）：根据自然语言指令在场景中精准定位正确的物体。
🧭 导航（Navigation）：通过沿途读取关键视觉线索，逐步接近目标。
🤲 操作（Manipulation）：通过细粒度、面向动作的接地感知对目标进行操作。

评估重点

衡量模型在具身过程中能否可靠地感知关键的视觉信息。
专注于视觉接地/感知评估，避免语言捷径（language shortcut exploitation）问题。
提供多样化且细粒度的任务设计。

数据获取

平台	链接
HuggingFace	https://huggingface.co/datasets/rxc205/EPIC-Bench
ModelScope	https://www.modelscope.cn/datasets/macarich/EPIC-Bench

数据格式与评估支持

数据集支持以下评估格式：

bbox（大多数任务）
point（FeasiblePath 任务）
基于掩码（mask）的评估即将推出

数据集主页与排行榜

项目主页：https://epic-bench.github.io/EPIC-Bench/
排行榜：可在项目主页中查看

许可证

本项目采用 Apache License 2.0 许可证。

搜集汇总

数据集介绍

构建方式

EPIC-Bench的构建源于对具身智能场景下视觉语言模型精细感知能力的深度考量。研究团队首先系统梳理了具身任务中的典型工作流，将其抽象为目标定位、导航与操作三大核心范畴，并进一步细化为23种具体任务类型。数据集的构建严格遵循真实具身流程的逻辑链条，确保每个任务实例都包含从自然语言指令到视觉场景的完整映射。标注过程聚焦于掩码级别的精准定位，通过人工精细标注与多轮校验，为每张图像提供了高质量的感知真值，避免了模型中语言捷径的滥用。

特点

该基准测试最显著的特点在于其以感知为中心的设计哲学，专门用于衡量视觉语言模型在具身场景中的视觉定位与感知能力，而非简单的语言还原。任务涵盖三大层级且粒度精细，从宏观的目标锁定到微观的操作感知，形成了对模型多层级视觉理解的全面考验。数据集摒弃了常见的语言捷径，迫使模型真正依赖视觉信息进行推理，从而更真实地反映其感知鲁棒性。此外，所有任务均保持对具身流程的忠实映射，赋予了评测极高的生态效度。

使用方法

使用EPIC-Bench进行评测通常遵循一套标准化的流水线。研究者首先从官方Hugging Face或ModelScope页面下载原始标注与图像数据，随后通过提供的工具将其转换为ms-swift或lmms-eval等框架兼容的格式。在推理阶段，既可利用ms-swift对开源模型进行高效推理，也能借助lmms-eval调用闭源API模型。模型输出的原始响应需通过标准化脚本转换为统一格式，最后由评测工具计算包括总体、类别及细粒度任务维度的得分，配合Streamlit可视化工具可直观浏览评测结果。

背景与挑战

背景概述

EPIC-Bench是一个于2026年发布的面向具身场景的视觉感知细粒度基准数据集，由研究团队设计并公开于HuggingFace与ModelScope平台。该数据集聚焦于评估视觉-语言模型（VLM）在具身任务中的视觉感知能力，核心研究问题在于：模型是否能够可靠地感知具身流程中关键的视觉信息，而非仅依赖语言捷径。EPIC-Bench涵盖目标定位、导航与操作三大高级类别及23种任务类型，严格遵循真实具身工作流设计，为细粒度具身视觉定位构建了全新的评估范式。其发布为VLM在机器人、自动驾驶等具身智能领域的可靠性验证提供了重要标尺，具有显著学术与工程影响力。

当前挑战

EPIC-Bench所解决的领域核心挑战在于：现有视觉定位基准多关注静态或简单场景，缺乏对具身流程中多阶段（定位-导航-操作）细粒度感知能力的系统评估，且易受语言偏好干扰。构建过程中，挑战包括：1）设计多样化且真实的具身任务类目，覆盖从目标精准定位到动态路径读取再到操作级地面感知的完整链条；2）抑制标注偏差与语言捷径，确保评估反映真实视觉感知而非文本先验；3）构建支持多种模型输入输出格式（如bbox、point、mask）的统一评测管线，兼容开源与闭源VLM；4）提供标准化的推理、格式化响应与打分流程，平衡评测灵活性与结果可比性。

常用场景

经典使用场景

在具身智能与多模态大模型交叉研究的前沿领域，EPIC-Bench作为一项以感知为核心的细粒度具身视觉定位基准，主要被用于评估视觉语言模型在真实具身场景中的视觉感知能力。该基准严格遵循具身工作流，将任务划分为目标定位、导航和操作三大高层类别，涵盖23种任务类型。经典使用方式是通过掩码定位范式，要求模型从自然语言指令出发，精准定位场景中的目标物体，并逐步完成接近与操作。这为衡量模型是否真正理解具身过程中的关键视觉信息提供了标准化测试框架。

解决学术问题

EPIC-Bench着力解决了当前视觉语言模型评估中普遍存在的语言捷径利用问题，即模型可能通过语言模式而非真实视觉理解来完成任务。该基准通过精细化的任务设计，迫使模型展现对细粒度视觉信息的真实感知能力，而非依赖语言捷径。其学术意义在于首次系统性地将具身场景中的视觉感知能力作为独立维度进行评测，推动了视觉定位研究从粗粒度交互向精细感知的范式转移，并为理解模型在复杂具身环境中的推理短板提供了定量依据。

衍生相关工作

EPIC-Bench衍生了一系列围绕具身视觉定位与多模态感知的经典工作。其发布配套的评估工具包支持ms-swift与lmms-eval两套主流推理接口，催生了对开源模型如Qwen-VL、InternVL、LLaVA系列以及闭源API模型的系统性评测研究。研究者基于该基准开展了视觉提示工程、响应标准化策略以及掩码评分机制的深入探索，进一步推动了基准驱动的模型改进。同时，该工作所定义的具身任务划分与评估范式，也为后续RoboBrain、RynnBrain等具身多模态模型的性能评测提供了重要参照与对比基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集