RussRobin/SpatialQA
收藏Hugging Face2024-07-19 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/RussRobin/SpatialQA
下载链接
链接失效反馈官方服务:
资源简介:
SpatialQA数据集旨在通过帮助模型理解和利用深度图来增强其空间理解能力。该数据集包含SpatialQA.json文件和高分辨率图像,同时需要从Bunny_695k下载低分辨率和中分辨率图像。
The SpatialQA dataset enhances the models spatial understanding capabilities by helping it comprehend and utilize depth maps. The dataset includes SpatialQA.json and high-level images, with additional low and middle-level images available in the Bunny_695k dataset. The dataset size is between 10,000 and 100,000 entries and is part of a broader initiative involving a GitHub repository, a VLM model with precise depth understanding, and a spatial understanding benchmark.
提供机构:
RussRobin
原始信息汇总
SpatialQA 数据集概述
基本信息
- 许可证: CC BY 4.0
- 语言: 英语
- 标签:
- Spatial Intelligence
- Depth Understanding
- Vision Language Model
- Multi-modal Large Language Model
- 名称: SpatialQA
- 数据量: 10K < n < 100K
数据集内容
- 文件:
SpatialQA.json - 图像: 包含高层次图像,需额外下载低层次和中层次图像,链接为 Bunny_695k。
相关资源
- 论文: arXiv:2406.13642
- GitHub 仓库: SpatialBot
- 模型: SpatialBot
- 基准测试: SpatialBench
- 边界框数据: RefinedCOCOBoundingBox
搜集汇总
数据集介绍

背景与挑战
背景概述
RussRobin/SpatialQA是一个用于增强空间理解能力的多模态数据集,包含图像和深度图数据,适用于视觉问答任务。数据集需要配合Bunny_695k图像使用,并提供了相关模型和论文资源。
以上内容由遇见数据集搜集并总结生成



