five

3DSRBench|3D空间推理数据集|多模态模型数据集

收藏
huggingface2025-01-03 更新2025-01-04 收录
3D空间推理
多模态模型
下载链接:
https://huggingface.co/datasets/ccvl/3DSRBench
下载链接
链接失效反馈
资源简介:
3DSRBench是一个全面的3D空间推理基准数据集,旨在评估大型多模态模型(LMMs)在3D空间推理方面的能力。数据集包含2,100个基于MS-COCO图像的手动标注的视觉问答(VQA)和672个基于HSSD渲染的多视图合成图像的VQA。通过在不同分割上进行实验,3DSRBench提供了有价值的发现和见解,有助于未来在3D空间智能LMMs方面的研究。
创建时间:
2025-01-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
3DSRBench数据集通过手动标注2,100个基于MS-COCO图像的视觉问答(VQA)以及672个基于HSSD渲染的多视角合成图像的VQA构建而成。该数据集旨在评估大型多模态模型(LMMs)在三维空间推理任务中的表现,涵盖了高度、位置、方向和多物体关系等多个维度。通过结合真实图像与合成图像,3DSRBench为研究提供了丰富且多样化的数据支持。
特点
3DSRBench数据集的特点在于其专注于三维空间推理任务,涵盖了多种复杂的空间关系问题。数据集包含高度、位置、方向和多物体关系等子任务,能够全面评估模型在三维空间中的推理能力。此外,数据集通过真实图像与合成图像的结合,提供了多样化的场景和挑战,确保了评估的广泛性和深度。
使用方法
3DSRBench数据集可通过HuggingFace的datasets库直接加载,使用`load_dataset('ccvl/3DSRBench')`即可获取数据。此外,数据集支持与VLMEvalKit工具包结合使用,通过提供的`3dsrbench_v1_vlmevalkit_circular.tsv`文件和`compute_3dsrbench_results_circular.py`脚本,用户可以轻松进行模型性能评估。具体步骤包括运行VLMEvalKit并调用脚本计算最终结果。
背景与挑战
背景概述
3DSRBench是一个专注于三维空间推理的基准测试数据集,由Wufei Ma等人于2024年提出。该数据集旨在评估大型多模态模型(LMMs)在三维空间推理任务中的表现。3DSRBench基于MS-COCO图像和多视角合成图像,手动标注了2,100个视觉问答(VQA)任务,涵盖了高度、位置、方向和多物体关系等多个维度。该数据集的推出为三维空间智能模型的研究提供了重要的评估工具,推动了相关领域的发展。
当前挑战
3DSRBench在解决三维空间推理问题时面临多重挑战。首先,三维空间推理任务本身具有较高的复杂性,涉及对物体位置、方向和相对关系的精确理解,这对模型的几何感知能力提出了极高要求。其次,数据集的构建过程中,手动标注大量高质量的三维空间推理问题需要耗费大量时间和资源,且需确保标注的一致性和准确性。此外,如何设计有效的评估方法以全面衡量模型在三维空间推理任务中的表现,也是该数据集面临的重要挑战之一。
常用场景
经典使用场景
3DSRBench数据集在3D空间推理领域具有广泛的应用,特别是在视觉问答(VQA)任务中。该数据集通过结合MS-COCO图像和多视角合成图像,提供了丰富的3D空间推理问题,能够有效评估大型多模态模型(LMMs)在3D空间中的推理能力。研究人员可以利用该数据集进行模型训练和评估,从而推动3D空间智能模型的发展。
衍生相关工作
3DSRBench数据集的发布催生了一系列相关研究工作,特别是在3D空间推理和多模态模型领域。例如,基于该数据集的评估结果,研究人员提出了改进的3D空间推理算法,并在VLMEvalKit等工具中集成了对该数据集的支持。此外,该数据集还激发了更多关于3D空间智能模型的研究,推动了该领域的快速发展。
数据集最近研究
最新研究方向
在三维空间推理领域,3DSRBench数据集的推出标志着对大型多模态模型(LMMs)在三维空间理解能力评估的重要突破。该数据集通过手工标注2100个基于MS-COCO图像的视觉问答(VQA)和672个基于HSSD渲染的多视角合成图像的VQA,为研究者提供了一个全面的评估平台。当前研究热点集中在如何利用3DSRBench提升模型在高度、位置、方向和多物体关系等复杂空间任务中的表现。例如,GPT-4o和Gemini 1.5 Pro等先进模型在该数据集上的初步表现揭示了模型在空间推理方面的潜力与局限,为未来开发更具空间智能的LMMs提供了宝贵的参考。这一进展不仅推动了三维视觉问答技术的发展,也为自动驾驶、机器人导航等实际应用场景中的空间理解能力提供了新的研究视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ST-EVCDP

这是一个关于公共电动汽车充电桩的时空充电需求预测的实际数据集,涵盖了18,061个公共充电桩的数据,包括坐标、充电器数量、占用情况和价格等信息。数据集用于学术研究,支持区域电动汽车充电需求预测。

github 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录