DriveMLLM|自动驾驶数据集|空间理解数据集

arXiv2024-11-20 更新2024-11-22 收录

自动驾驶

空间理解

下载链接：

https://github.com/XiandaGuo/Drive-MLLM

下载链接

链接失效反馈

资源简介：

DriveMLLM数据集由中国科学院自动化研究所等机构创建，专注于自动驾驶场景中的空间理解任务。该数据集包含880张前向摄像头图像，涵盖绝对和相对空间推理任务，并附有丰富的自然语言问题。数据集的创建基于nuScenes数据集，经过严格筛选和标注，确保图像中对象的清晰可见性和空间关系的明确性。DriveMLLM旨在评估和提升多模态大语言模型在自动驾驶中的空间推理能力，解决复杂空间关系理解的问题。

提供机构：

中国科学院自动化研究所

创建时间：

2024-11-20

原始信息汇总

DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

数据集概述

数据集名称: MLLM_eval_dataset
数据来源:
- 图像数据来自nuScenes验证集中的CAM_FRONT。
- 提供了一个metadata.jsonl文件，包含图像的属性如location2D。
数据集用途: 用于评估多模态大语言模型在自动驾驶中的空间理解能力。

数据集使用

0. 准备数据集

数据集链接: MLLM_eval_dataset

1. 环境设置

环境设置文档: Setup Environment

2. 推理

推理脚本:
- GPT API: shell export OPENAI_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gpt --model gpt-4o --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs
- Gemini API: shell export GOOGLE_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gemini --model models/gemini-1.5-flash --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs
- Local LLaVA-Next: shell python inference/get_MLLM_output.py --model_type llava --model lmms-lab/llava-onevision-qwen2-7b-si --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs
- Local QWen2-VL: shell python inference/get_MLLM_output.py --model_type qwen --model Qwen/Qwen2-VL-7B-Instruct --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

3. 评估

评估脚本:
- 评估所有结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path all
- 评估特定结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path gemini/gemini-1.5-flash

引用

@article{DriveMLLM, title={DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving}, author={Guo, Xianda and Zhang Ruijun and Duan Yiqun and He Yuhang and Zhang, Chenming and Chen, Long}, journal={arXiv preprint arXiv:2411.13112}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

DriveMLLM数据集的构建基于nuScenes数据集，该数据集包含来自六个摄像头覆盖360度视野的图像，以及LiDAR、雷达和GPS/IMU数据。研究团队从中精选了880张前向摄像头图像，这些图像具有清晰的物体外观，适用于绝对和相对空间推理任务。此外，团队还生成了多样化的自然语言问题，并设计了新的评估指标，以全面评估多模态大语言模型（MLLMs）在自动驾驶环境中的空间理解能力。

使用方法

DriveMLLM数据集主要用于评估和提升多模态大语言模型在自动驾驶环境中的空间理解能力。研究者可以通过该数据集对模型进行训练和测试，利用其提供的图像和自然语言问题，评估模型在绝对和相对空间推理任务中的表现。数据集还提供了详细的评估协议和指标，帮助研究者量化模型的性能，并为进一步的研究和模型优化提供方向。

背景与挑战

背景概述

自动驾驶技术的发展对3D环境理解提出了全面要求，以支持运动预测、规划和地图构建等高级任务。在此背景下，DriveMLLM数据集应运而生，由武汉大学、中国科学院自动化研究所、Waytous、悉尼科技大学、牛津大学和TikTok等机构的研究人员共同创建。该数据集旨在评估多模态大语言模型（MLLMs）在自动驾驶中的空间理解能力，包含2,734张前向摄像头图像，并引入了绝对和相对空间推理任务，伴随多样化的自然语言问题。通过提出新的评估指标，DriveMLLM揭示了当前模型在理解复杂空间关系方面的局限性，强调了开发更先进的MLLM空间推理方法的必要性。

当前挑战

DriveMLLM数据集面临的挑战主要集中在两个方面：一是解决自动驾驶领域中复杂空间关系的理解问题，这要求模型能够处理和推理图像中的多对象空间关系；二是在构建过程中，数据集需要从nuScenes数据集中精心筛选和标注，确保图像中的对象清晰可见且无遮挡，同时生成多样化的自然语言描述以支持多模态模型的评估。此外，当前MLLMs在处理绝对空间任务时表现不佳，表明在精确空间测量和深度感知方面仍有显著提升空间。

常用场景

经典使用场景

DriveMLLM 数据集的经典使用场景主要集中在自动驾驶领域中多模态大语言模型（MLLMs）的空间理解能力评估。该数据集通过包含2,734张前向摄像头图像，并设计了绝对和相对空间推理任务，以及多样化的自然语言问题，来测试模型在复杂驾驶环境中的空间关系理解能力。这些任务包括物体定位、边界框确定、相机到物体的距离估计等，旨在全面评估模型在自动驾驶场景中的空间感知和推理能力。

解决学术问题

DriveMLLM 数据集解决了自动驾驶领域中多模态大语言模型在空间理解方面的常见学术研究问题。通过引入绝对和相对空间推理任务，该数据集揭示了当前模型在理解复杂空间关系方面的局限性，强调了开发更高级空间推理方法的必要性。这不仅推动了自动驾驶技术的进步，还为多模态模型的研究提供了新的方向和挑战。

实际应用

在实际应用中，DriveMLLM 数据集为自动驾驶系统的开发和测试提供了宝贵的资源。通过评估模型在真实驾驶场景中的空间理解能力，该数据集帮助识别和改进自动驾驶系统中的关键技术瓶颈。此外，它还促进了多模态大语言模型在自动驾驶领域的应用，提升了系统的安全性和可靠性。

数据集最近研究

相关研究论文

1
DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving中国科学院自动化研究所 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

CMAB

CMAB数据集由清华大学创建，是中国首个全国范围的多属性建筑数据集，涵盖了3667个自然城市，总面积达213亿平方米。该数据集通过集成多源数据，如高分辨率Google Earth影像和街景图像，生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型，确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究，旨在提供详细的城市3D物理和社会结构信息，支持城市化进程和政府决策。

arXiv 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。