five

EMBODIEDBENCH|多模态模型评估数据集|人工智能综合评测数据集

收藏
arXiv2025-02-14 更新2025-02-15 收录
多模态模型评估
人工智能综合评测
下载链接:
https://embodiedbench.github.io
下载链接
链接失效反馈
资源简介:
EMBODIEDBENCH是由伊利诺伊大学厄巴纳-香槟分校等机构创建的综合性评测数据集,包含四种环境下的1128个测试任务,覆盖从高级语义任务到低级原子动作任务。数据集经过精心设计,不仅具有多样的任务层次,还引入了面向能力的细粒度评估框架。该数据集能够全面评估多模态大型语言模型在视觉感知、常识推理、复杂指令理解、空间感知和长期规划等方面的性能。
提供机构:
伊利诺伊大学厄巴纳-香槟分校, Northwestern University, 多伦多大学, 芝加哥丰田技术研究所
创建时间:
2025-02-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
EMBODIEDBENCH 数据集的构建旨在评估基于多模态大型语言模型(MLLMs)的视觉驱动的具身代理的性能。数据集包括四个环境,共有 1,128 个测试任务,涵盖了从高层次语义任务(如家务活动)到低层次原子动作任务(如导航和操作)的广泛任务类型。数据集还精心设计了六个子集,用于评估代理的关键能力,如常识推理、复杂指令理解、空间意识、视觉感知和长期规划。通过这些任务和子集,研究者可以全面评估 MLLM 的性能,并深入了解其优缺点。
特点
EMBODIEDBENCH 数据集的特点包括任务类型的多样性、能力导向的评估和视觉驱动。数据集涵盖了从高层次到低层次的多种任务类型,能够全面评估代理的能力。此外,数据集还引入了能力导向的评估框架,可以评估代理在常识推理、复杂指令理解、空间意识、视觉感知和长期规划等方面的能力。此外,数据集还强调了视觉信息在具身代理任务中的重要性,并提供了视觉感知和反馈,以帮助代理更好地理解环境和执行任务。
使用方法
使用 EMBODIEDBENCH 数据集进行评估时,需要遵循一定的步骤。首先,需要选择合适的 MLLM 模型,并将其部署到相应的环境中。然后,根据数据集中的任务和子集,为代理提供语言指令和视觉感知信息。代理需要根据这些信息生成行动序列,并执行相应的动作。最后,根据任务的成功率和其他指标评估代理的性能。此外,数据集还提供了多种视觉增强技术,如检测框、多步图像和多视图图像,可以帮助代理更好地理解环境和执行任务。
背景与挑战
背景概述
在多模态大型语言模型(MLLMs)应用于具身智能体领域的研究中,EMBODIEDBENCH是一个全面的基准测试,旨在评估视觉驱动的具身智能体。该数据集由杨瑞等研究人员于2025年2月发布,旨在解决当前评估框架的缺乏,以促进MLLM-based具身智能体的发展。EMBODIEDBENCH包含了四个环境中的1128个测试任务,涵盖了从高级语义任务(如家庭任务)到涉及原子操作的底层任务(如导航和操作)。该数据集还包括六个精心策划的子集,用于评估基本任务解决、常识推理、复杂指令理解、空间意识、视觉感知和长期规划等关键智能体能力。通过广泛的实验,研究人员评估了13个领先的专有和开源MLLMs,发现MLLMs在高级任务上表现出色,但在低级操作上表现不佳。
当前挑战
EMBODIEDBENCH数据集面临的挑战主要包括:1)低级操作任务上的困难,例如导航和操作等;2)长期规划能力的不足;3)视觉输入对低级任务的重要性,以及对高级任务的影响较小。此外,数据集构建过程中也遇到了一些挑战,例如如何有效地整合空间推理与低级操作规划,以及如何更好地利用视觉输入以解决高级具身任务。
常用场景
经典使用场景
EMBODIEDBENCH 数据集被广泛应用于评估和比较多模态大型语言模型(MLLM)在视觉驱动下的具身智能体性能。该数据集包含了跨越四个环境的 1,128 个测试任务,这些环境从高级语义任务(如家务)到涉及原子动作的低级任务(如导航和操作)不等。这使得 EMBODIEDBENCH 成为研究和开发视觉驱动具身智能体的关键工具。
衍生相关工作
EMBODIEDBENCH 数据集衍生了许多相关的经典工作,包括视觉语言模型(VLA)的评估、具身智能体的能力评估和具身智能体的设计等。这些相关工作进一步推动了具身智能体技术的发展,并为开发更智能、更灵活的具身智能体提供了新的思路和方法。
数据集最近研究
最新研究方向
EMBODIEDBENCH 数据集的最新研究方向主要集中在多模态大型语言模型 (MLLM) 在视觉驱动具身智能体中的应用评估。该数据集旨在填补 MLLM 具身智能体评估框架的空白,并提供了一个全面的基准测试平台,以评估 MLLM 在各种任务中的表现。EMBODIEDBENCH 数据集包括 1,128 个测试任务,涵盖了从高级语义任务(例如家务)到涉及原子操作的底层任务(例如导航和操作)。此外,该数据集还包括六个精心策划的子集,用于评估具身智能体的基本能力,例如常识推理、复杂指令理解、空间意识、视觉感知和长期规划。通过在 EMBODIEDBENCH 上对 13 个领先的专有和开源 MLLM 进行广泛的实验,发现 MLLM 在高级任务上表现出色,但在底层操作方面存在困难。EMBODIEDBENCH 为 MLLM 具身智能体提供了一个多方面的标准化评估平台,不仅突出了现有的挑战,而且还提供了宝贵的见解,以推动 MLLM 具身智能体的发展。
相关研究论文
  • 1
    EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents伊利诺伊大学厄巴纳-香槟分校, Northwestern University, 多伦多大学, 芝加哥丰田技术研究所 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

ChineseSafe

ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集,旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本,涵盖4个类别和10个子类别的安全问题,特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据,经过数据清洗和去重处理,确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估,旨在帮助开发者和研究者提升模型在实际应用中的安全性。

arXiv 收录