five

DriveMLLM|自动驾驶数据集|空间理解数据集

收藏
arXiv2024-11-20 更新2024-11-22 收录
自动驾驶
空间理解
下载链接:
https://github.com/XiandaGuo/Drive-MLLM
下载链接
链接失效反馈
资源简介:
DriveMLLM数据集由中国科学院自动化研究所等机构创建,专注于自动驾驶场景中的空间理解任务。该数据集包含880张前向摄像头图像,涵盖绝对和相对空间推理任务,并附有丰富的自然语言问题。数据集的创建基于nuScenes数据集,经过严格筛选和标注,确保图像中对象的清晰可见性和空间关系的明确性。DriveMLLM旨在评估和提升多模态大语言模型在自动驾驶中的空间推理能力,解决复杂空间关系理解的问题。
提供机构:
中国科学院自动化研究所
创建时间:
2024-11-20
原始信息汇总

DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

数据集概述

  • 数据集名称: MLLM_eval_dataset
  • 数据来源:
    • 图像数据来自nuScenes验证集中的CAM_FRONT
    • 提供了一个metadata.jsonl文件,包含图像的属性如location2D
  • 数据集用途: 用于评估多模态大语言模型在自动驾驶中的空间理解能力。

数据集使用

0. 准备数据集

1. 环境设置

2. 推理

  • 推理脚本:
    • GPT API: shell export OPENAI_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gpt --model gpt-4o --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Gemini API: shell export GOOGLE_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gemini --model models/gemini-1.5-flash --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Local LLaVA-Next: shell python inference/get_MLLM_output.py --model_type llava --model lmms-lab/llava-onevision-qwen2-7b-si --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Local QWen2-VL: shell python inference/get_MLLM_output.py --model_type qwen --model Qwen/Qwen2-VL-7B-Instruct --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

3. 评估

  • 评估脚本:
    • 评估所有结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path all

    • 评估特定结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path gemini/gemini-1.5-flash

引用

@article{DriveMLLM, title={DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving}, author={Guo, Xianda and Zhang Ruijun and Duan Yiqun and He Yuhang and Zhang, Chenming and Chen, Long}, journal={arXiv preprint arXiv:2411.13112}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
DriveMLLM数据集的构建基于nuScenes数据集,该数据集包含来自六个摄像头覆盖360度视野的图像,以及LiDAR、雷达和GPS/IMU数据。研究团队从中精选了880张前向摄像头图像,这些图像具有清晰的物体外观,适用于绝对和相对空间推理任务。此外,团队还生成了多样化的自然语言问题,并设计了新的评估指标,以全面评估多模态大语言模型(MLLMs)在自动驾驶环境中的空间理解能力。
使用方法
DriveMLLM数据集主要用于评估和提升多模态大语言模型在自动驾驶环境中的空间理解能力。研究者可以通过该数据集对模型进行训练和测试,利用其提供的图像和自然语言问题,评估模型在绝对和相对空间推理任务中的表现。数据集还提供了详细的评估协议和指标,帮助研究者量化模型的性能,并为进一步的研究和模型优化提供方向。
背景与挑战
背景概述
自动驾驶技术的发展对3D环境理解提出了全面要求,以支持运动预测、规划和地图构建等高级任务。在此背景下,DriveMLLM数据集应运而生,由武汉大学、中国科学院自动化研究所、Waytous、悉尼科技大学、牛津大学和TikTok等机构的研究人员共同创建。该数据集旨在评估多模态大语言模型(MLLMs)在自动驾驶中的空间理解能力,包含2,734张前向摄像头图像,并引入了绝对和相对空间推理任务,伴随多样化的自然语言问题。通过提出新的评估指标,DriveMLLM揭示了当前模型在理解复杂空间关系方面的局限性,强调了开发更先进的MLLM空间推理方法的必要性。
当前挑战
DriveMLLM数据集面临的挑战主要集中在两个方面:一是解决自动驾驶领域中复杂空间关系的理解问题,这要求模型能够处理和推理图像中的多对象空间关系;二是在构建过程中,数据集需要从nuScenes数据集中精心筛选和标注,确保图像中的对象清晰可见且无遮挡,同时生成多样化的自然语言描述以支持多模态模型的评估。此外,当前MLLMs在处理绝对空间任务时表现不佳,表明在精确空间测量和深度感知方面仍有显著提升空间。
常用场景
经典使用场景
DriveMLLM 数据集的经典使用场景主要集中在自动驾驶领域中多模态大语言模型(MLLMs)的空间理解能力评估。该数据集通过包含2,734张前向摄像头图像,并设计了绝对和相对空间推理任务,以及多样化的自然语言问题,来测试模型在复杂驾驶环境中的空间关系理解能力。这些任务包括物体定位、边界框确定、相机到物体的距离估计等,旨在全面评估模型在自动驾驶场景中的空间感知和推理能力。
解决学术问题
DriveMLLM 数据集解决了自动驾驶领域中多模态大语言模型在空间理解方面的常见学术研究问题。通过引入绝对和相对空间推理任务,该数据集揭示了当前模型在理解复杂空间关系方面的局限性,强调了开发更高级空间推理方法的必要性。这不仅推动了自动驾驶技术的进步,还为多模态模型的研究提供了新的方向和挑战。
实际应用
在实际应用中,DriveMLLM 数据集为自动驾驶系统的开发和测试提供了宝贵的资源。通过评估模型在真实驾驶场景中的空间理解能力,该数据集帮助识别和改进自动驾驶系统中的关键技术瓶颈。此外,它还促进了多模态大语言模型在自动驾驶领域的应用,提升了系统的安全性和可靠性。
数据集最近研究
最新研究方向
在自动驾驶领域,DriveMLLM数据集的最新研究方向主要集中在多模态大语言模型(MLLMs)的空间理解能力评估上。该数据集通过引入绝对和相对空间推理任务,以及多样化的自然语言问题,旨在全面评估MLLMs在复杂驾驶环境中的表现。研究者们通过设计新的评估指标,对多种最先进的MLLMs进行了测试,揭示了当前模型在理解复杂空间关系方面的局限性。这些发现强调了开发更高级的基于MLLM的空间推理方法的必要性,并突显了DriveMLLM在推动自动驾驶领域进一步研究中的潜力。
相关研究论文
  • 1
    DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving中国科学院自动化研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录