five

Phineas476/EmbSpatial-Bench|具身体验数据集|空间理解数据集

收藏
hugging_face2024-06-23 更新2024-06-29 收录
具身体验
空间理解
下载链接:
https://hf-mirror.com/datasets/Phineas476/EmbSpatial-Bench
下载链接
链接失效反馈
资源简介:
EmbSpatial-Bench是一个用于评估LVLMs在具身空间理解方面的基准,包含3,640个QA对,覆盖294个对象类别和6种空间关系。EmbSpatial-SFT是一个指令调优数据集,提供两个任务的QA数据:空间关系识别和对象定位,其中对象定位任务作为辅助任务,用于增强模型的基础能力。EmbSpatial-SFT仅基于MP3D的训练场景构建。

EmbSpatial-Bench是一个用于评估LVLMs在具身空间理解方面的基准,包含3,640个QA对,覆盖294个对象类别和6种空间关系。EmbSpatial-SFT是一个指令调优数据集,提供两个任务的QA数据:空间关系识别和对象定位,其中对象定位任务作为辅助任务,用于增强模型的基础能力。EmbSpatial-SFT仅基于MP3D的训练场景构建。
提供机构:
Phineas476
原始信息汇总

EmbSpatial-Bench

概述

  • 名称: EmbSpatial-Bench
  • 用途: 用于评估大型视觉语言模型(LVLMs)的具身空间理解能力的基准测试。
  • 数据来源: 自动从具身场景中提取。
  • 数据规模: 包含3,640个问答对。
  • 覆盖范围: 涵盖294个物体类别和6种空间关系。
  • 视角: 以自我为中心的视角。

EmbSpatial-SFT

概述

  • 名称: EmbSpatial-SFT
  • 用途: 指令微调数据集,用于两个任务:空间关系识别和物体定位。
  • 任务设置:
    • 第一个任务与EmbSpatial-Bench一致。
    • 第二个任务作为辅助任务,用于增强模型对目标物体的定位能力。
  • 数据来源: 仅基于MP3D的训练场景构建。
AI搜集汇总
数据集介绍
main_image_url
构建方式
EmbSpatial-Bench数据集的构建基于具身场景,自动衍生出294个对象类别和6种空间关系的3,640个问答对。该数据集的构建采用了LVLMs的空间理解评估标准,从自我中心的视角出发,确保了评估的针对性和准确性。
特点
EmbSpatial-Bench的特点在于其专注于评估大型语言模型在具身场景中的空间理解能力,涵盖了丰富的空间关系和对象类别。此外,与之相伴的EmbSpatial-SFT数据集,作为指令微调的数据集,不仅包含了与EmbSpatial-Bench一致的第一个任务设置,还增加了对象定位的辅助任务,以增强模型对目标对象的定位能力。
使用方法
使用EmbSpatial-Bench数据集,研究人员可以评估模型在空间关系理解和对象定位方面的表现。用户需遵循cc-by-4.0许可证的规定,数据集的详细使用方法和更多细节可以在相关论文中找到,论文链接为https://arxiv.org/abs/2406.05756。
背景与挑战
背景概述
EmbSpatial-Bench,作为评估大型视觉语言模型(LVLMs)在具身空间理解方面的基准,其创建旨在满足人工智能领域对空间关系认知的深入需求。该数据集由Phineas476团队开发,于2023年公开,通过自动提取具身场景中的信息,涵盖了从自我中心视角出发的六种空间关系。数据集包含了3640个问答对,跨越294个对象类别,为相关领域的研究提供了宝贵的资源,对于推动具身人工智能的空间认知研究具有显著影响力。
当前挑战
EmbSpatial-Bench在构建过程中,面临了如何准确捕捉和表述复杂空间关系的挑战,同时确保数据集的多样性和代表性。此外,EmbSpatial-SFT作为辅助数据集,旨在通过空间关系识别和对象定位任务来增强模型的能力,其构建过程中同样需要解决如何平衡辅助任务与主要任务之间的关联性和差异性。这些挑战不仅考验了数据集构建者的技术智慧,也推动了空间关系理解领域的技术进步。
常用场景
经典使用场景
在人工智能领域,EmbSpatial-Bench数据集被广泛应用于评估大型视觉语言模型(LVLMs)的具身空间理解能力。该数据集通过自动从具身场景中提取,涉及六种从自我中心角度出发的空间关系,为研究者提供了一个全面而细致的评估平台。
实际应用
在实践应用方面,EmbSpatial-Bench数据集可用于改进机器人在复杂环境中的导航和交互能力,如自动驾驶汽车在识别道路标志和障碍物时的空间关系判断,以及智能家居系统中对用户指令的空间理解。
衍生相关工作
基于EmbSpatial-Bench,衍生出了EmbSpatial-SFT数据集,它是一个指令调整数据集,提供了空间关系识别和对象定位两种任务的数据。这一衍生工作不仅增强了对LVLMs空间理解能力的训练,也为后续研究提供了更加丰富和多样化的数据资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

DFT dataset for high entropy alloys

我们的DFT数据集涵盖了由八种元素组成的bcc和fcc结构,包括所有可能的2至7元合金系统。该数据集在Zenodo上公开可用,包含初始和最终结构、形成能量、原子磁矩和电荷等属性。

github 收录

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录