five

DriveMLLM

收藏
arXiv2024-11-20 更新2024-11-22 收录
下载链接:
https://github.com/XiandaGuo/Drive-MLLM
下载链接
链接失效反馈
资源简介:
DriveMLLM数据集由中国科学院自动化研究所等机构创建,专注于自动驾驶场景中的空间理解任务。该数据集包含880张前向摄像头图像,涵盖绝对和相对空间推理任务,并附有丰富的自然语言问题。数据集的创建基于nuScenes数据集,经过严格筛选和标注,确保图像中对象的清晰可见性和空间关系的明确性。DriveMLLM旨在评估和提升多模态大语言模型在自动驾驶中的空间推理能力,解决复杂空间关系理解的问题。

The DriveMLLM dataset, developed by institutions including the Institute of Automation, Chinese Academy of Sciences, focuses on spatial understanding tasks in autonomous driving scenarios. This dataset comprises 880 forward-facing camera images, covers both absolute and relative spatial reasoning tasks, and is paired with a rich set of natural language questions. Built upon the nuScenes dataset, DriveMLLM has undergone rigorous screening and annotation to ensure clear visibility of objects in the images and unambiguous spatial relationships. DriveMLLM aims to evaluate and enhance the spatial reasoning capabilities of multimodal large language models in autonomous driving, addressing the challenge of understanding complex spatial relationships.
提供机构:
中国科学院自动化研究所
创建时间:
2024-11-20
原始信息汇总

DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

数据集概述

  • 数据集名称: MLLM_eval_dataset
  • 数据来源:
    • 图像数据来自nuScenes验证集中的CAM_FRONT
    • 提供了一个metadata.jsonl文件,包含图像的属性如location2D
  • 数据集用途: 用于评估多模态大语言模型在自动驾驶中的空间理解能力。

数据集使用

0. 准备数据集

1. 环境设置

2. 推理

  • 推理脚本:
    • GPT API: shell export OPENAI_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gpt --model gpt-4o --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Gemini API: shell export GOOGLE_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gemini --model models/gemini-1.5-flash --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Local LLaVA-Next: shell python inference/get_MLLM_output.py --model_type llava --model lmms-lab/llava-onevision-qwen2-7b-si --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Local QWen2-VL: shell python inference/get_MLLM_output.py --model_type qwen --model Qwen/Qwen2-VL-7B-Instruct --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

3. 评估

  • 评估脚本:
    • 评估所有结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path all

    • 评估特定结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path gemini/gemini-1.5-flash

引用

@article{DriveMLLM, title={DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving}, author={Guo, Xianda and Zhang Ruijun and Duan Yiqun and He Yuhang and Zhang, Chenming and Chen, Long}, journal={arXiv preprint arXiv:2411.13112}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
DriveMLLM数据集的构建基于nuScenes数据集,该数据集包含来自六个摄像头覆盖360度视野的图像,以及LiDAR、雷达和GPS/IMU数据。研究团队从中精选了880张前向摄像头图像,这些图像具有清晰的物体外观,适用于绝对和相对空间推理任务。此外,团队还生成了多样化的自然语言问题,并设计了新的评估指标,以全面评估多模态大语言模型(MLLMs)在自动驾驶环境中的空间理解能力。
使用方法
DriveMLLM数据集主要用于评估和提升多模态大语言模型在自动驾驶环境中的空间理解能力。研究者可以通过该数据集对模型进行训练和测试,利用其提供的图像和自然语言问题,评估模型在绝对和相对空间推理任务中的表现。数据集还提供了详细的评估协议和指标,帮助研究者量化模型的性能,并为进一步的研究和模型优化提供方向。
背景与挑战
背景概述
自动驾驶技术的发展对3D环境理解提出了全面要求,以支持运动预测、规划和地图构建等高级任务。在此背景下,DriveMLLM数据集应运而生,由武汉大学、中国科学院自动化研究所、Waytous、悉尼科技大学、牛津大学和TikTok等机构的研究人员共同创建。该数据集旨在评估多模态大语言模型(MLLMs)在自动驾驶中的空间理解能力,包含2,734张前向摄像头图像,并引入了绝对和相对空间推理任务,伴随多样化的自然语言问题。通过提出新的评估指标,DriveMLLM揭示了当前模型在理解复杂空间关系方面的局限性,强调了开发更先进的MLLM空间推理方法的必要性。
当前挑战
DriveMLLM数据集面临的挑战主要集中在两个方面:一是解决自动驾驶领域中复杂空间关系的理解问题,这要求模型能够处理和推理图像中的多对象空间关系;二是在构建过程中,数据集需要从nuScenes数据集中精心筛选和标注,确保图像中的对象清晰可见且无遮挡,同时生成多样化的自然语言描述以支持多模态模型的评估。此外,当前MLLMs在处理绝对空间任务时表现不佳,表明在精确空间测量和深度感知方面仍有显著提升空间。
常用场景
经典使用场景
DriveMLLM 数据集的经典使用场景主要集中在自动驾驶领域中多模态大语言模型(MLLMs)的空间理解能力评估。该数据集通过包含2,734张前向摄像头图像,并设计了绝对和相对空间推理任务,以及多样化的自然语言问题,来测试模型在复杂驾驶环境中的空间关系理解能力。这些任务包括物体定位、边界框确定、相机到物体的距离估计等,旨在全面评估模型在自动驾驶场景中的空间感知和推理能力。
解决学术问题
DriveMLLM 数据集解决了自动驾驶领域中多模态大语言模型在空间理解方面的常见学术研究问题。通过引入绝对和相对空间推理任务,该数据集揭示了当前模型在理解复杂空间关系方面的局限性,强调了开发更高级空间推理方法的必要性。这不仅推动了自动驾驶技术的进步,还为多模态模型的研究提供了新的方向和挑战。
实际应用
在实际应用中,DriveMLLM 数据集为自动驾驶系统的开发和测试提供了宝贵的资源。通过评估模型在真实驾驶场景中的空间理解能力,该数据集帮助识别和改进自动驾驶系统中的关键技术瓶颈。此外,它还促进了多模态大语言模型在自动驾驶领域的应用,提升了系统的安全性和可靠性。
数据集最近研究
最新研究方向
在自动驾驶领域,DriveMLLM数据集的最新研究方向主要集中在多模态大语言模型(MLLMs)的空间理解能力评估上。该数据集通过引入绝对和相对空间推理任务,以及多样化的自然语言问题,旨在全面评估MLLMs在复杂驾驶环境中的表现。研究者们通过设计新的评估指标,对多种最先进的MLLMs进行了测试,揭示了当前模型在理解复杂空间关系方面的局限性。这些发现强调了开发更高级的基于MLLM的空间推理方法的必要性,并突显了DriveMLLM在推动自动驾驶领域进一步研究中的潜力。
相关研究论文
  • 1
    DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving中国科学院自动化研究所 · 2024年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作