five

ECBench|多模态认知数据集|机器人技术数据集

收藏
arXiv2025-01-09 更新2025-01-11 收录
多模态认知
机器人技术
下载链接:
https://github.com/RhDang/ECBench
下载链接
链接失效反馈
资源简介:
ECBench是由阿里巴巴达摩院、浙江大学和同济大学联合开发的一个多模态基准测试数据集,旨在评估大型视觉语言模型在自我中心视频中的认知能力。该数据集包含386个RGB-D视频和4324个问答对,涵盖了30个不同的认知维度,包括感知、推理、自我意识、动态捕捉和幻觉等。数据集的创建过程采用了类独立的人工标注和多轮问题筛选策略,确保了数据的质量和平衡性。ECBench的应用领域主要集中在机器人技术和人工智能领域,旨在解决机器人在动态环境中进行复杂任务时的认知挑战。
提供机构:
阿里巴巴达摩院, 浙江大学, 同济大学
创建时间:
2025-01-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
ECBench数据集的构建采用了多源视频采集与精细的人工标注相结合的方式。首先,通过开放世界物体导航代理和主动问答代理在HM3D虚拟环境中捕捉机器人视角的真实视频流,确保视频内容能够真实反映机器人在任务执行中的感知过程。其次,从ScanNet和MultiScan数据集中精选了191个真实扫描视频,并结合Intel RealSense深度相机采集了现实世界中的反直觉场景和动态场景视频,为幻觉问题和动态感知评估提供了数据基础。为确保数据质量,ECBench采用了类别无关的标注策略,并通过多轮问题筛选机制,减少仅依赖常识即可回答的问题比例。此外,ECBench还引入了ECEval评估系统,结合二元评分和多级评分,确保评估指标的公平性和合理性。
特点
ECBench数据集的特点在于其多样化的场景视频来源、开放的问答形式以及30个维度的具身认知能力评估。数据集涵盖了静态场景、动态场景和幻觉问题三大类别,其中静态场景问题进一步细分为场景认知和机器人中心认知,动态场景问题则聚焦于空间、状态、信息和数量动态变化。ECBench通过引入机器人中心认知问题,首次系统评估了模型对自身与环境关系的理解能力。此外,ECBench还特别关注了具身场景中的幻觉问题,从常识过度自信和用户输入过度自信两个角度进行了详细评估。数据集共包含4,324个问答对,覆盖了30个细粒度的评估维度,确保了评估的全面性和系统性。
使用方法
ECBench数据集的使用方法主要围绕其评估框架ECEval展开。ECEval结合了二元评分和多级评分机制,能够有效处理封闭式和开放式问题的评估。对于封闭式问题,ECEval采用二元评分,直接判断答案的正确性;而对于开放式问题,ECEval则通过人工标注的0.5分参考答案,结合GPT-4o的多级评分,提供更为精确的评分结果。在使用ECBench进行评估时,研究者可以通过输入视频序列和问题,获取模型生成的答案,并利用ECEval框架进行评分。此外,ECBench还提供了详细的评估指标和数据集统计信息,帮助研究者深入分析模型在具身认知任务中的表现。通过ECBench,研究者可以全面评估多模态大模型在具身环境中的认知能力,推动具身智能的发展。
背景与挑战
背景概述
ECBench是由阿里巴巴达摩院、浙江大学和同济大学的研究团队于2025年提出的一个多模态基础模型(LVLMs)在自我中心视频中的具身认知能力评估基准。该数据集的创建旨在解决当前具身视频问答数据集中缺乏系统性和全面性评估框架的问题。ECBench通过引入多样化的场景视频来源、开放的问答格式以及30个维度的具身认知能力,为LVLMs的具身认知能力提供了全面的评估工具。该数据集的核心研究问题包括机器人自我认知、动态场景感知和幻觉问题等,这些问题在现有数据集中往往被忽视。ECBench的推出为具身代理的核心模型开发奠定了坚实的基础,推动了LVLMs在具身认知能力上的进一步发展。
当前挑战
ECBench面临的挑战主要体现在两个方面:首先,在领域问题方面,现有的具身视频问答数据集往往缺乏对机器人自我认知、动态场景感知和幻觉问题的系统性评估,导致LVLMs在这些关键具身认知能力上的表现难以准确衡量。其次,在数据集构建过程中,ECBench面临的主要挑战包括如何确保视频数据的多样性和高质量,以及如何设计复杂的问答对来评估模型的具身认知能力。此外,ECBench还通过多轮问题筛选策略和人工标注来确保数据集的平衡性和视觉依赖性,这进一步增加了数据集的构建难度。这些挑战使得ECBench在具身认知评估领域具有重要的创新性和前瞻性。
常用场景
经典使用场景
ECBench数据集主要用于评估多模态基础模型(如大视觉语言模型,LVLMs)在自我中心视频中的认知能力。其经典使用场景包括机器人自我认知、动态场景感知以及幻觉问题的系统性评估。通过提供多样化的场景视频、开放式问题格式以及30个维度的认知能力评估,ECBench为研究者在机器人视觉认知领域提供了全面的测试平台。
衍生相关工作
ECBench的提出催生了一系列相关研究工作,尤其是在机器人视觉认知和多模态模型评估领域。例如,基于ECBench的研究可以进一步探索如何提升模型在动态场景中的表现,或如何减少模型在自我中心视频中的幻觉问题。此外,ECBench还为其他研究者提供了数据基础,推动了更多针对机器人自我认知和动态场景理解的研究。
数据集最近研究
最新研究方向
随着多模态基础模型(LVLMs)在机器人领域的广泛应用,如何评估这些模型在自我中心视频中的具身认知能力成为了研究热点。ECBench作为一个高质量的基准测试集,旨在系统评估LVLMs在具身认知任务中的表现。该数据集涵盖了静态场景、动态场景和幻觉问题三大类,通过30个具身认知维度对模型进行全面评估。ECBench不仅引入了机器人自我认知问题,还首次提出了动态场景中的开放世界问答任务,强调了模型对场景动态变化的感知能力。此外,ECBench还通过精心设计的人类标注和多轮问题筛选策略,确保了数据的高质量和视觉依赖性。通过ECBench,研究者能够深入探讨LVLMs在机器人具身认知中的局限性,尤其是在动态场景和幻觉问题上的表现。这一基准测试集的推出,为开发更可靠的具身智能核心模型奠定了坚实基础,并推动了LVLMs在更复杂和多样化的物理世界中的应用。
相关研究论文
  • 1
    ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark阿里巴巴达摩院, 浙江大学, 同济大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

中国100m人口密度数据集(2000-2020年)

本数据集为中国100m人口密度数据集,数据来源于WorldPop平台,该数据集为UN-adjusted 且 Constrained 版本。 数据集按照年份共计包含21个tif栅格数据,worldpop-year-merged.tif。

国家地球系统科学数据中心 收录