five

DriveMLLM|自动驾驶数据集|空间理解数据集

收藏
arXiv2024-11-20 更新2024-11-22 收录
自动驾驶
空间理解
下载链接:
https://github.com/XiandaGuo/Drive-MLLM
下载链接
链接失效反馈
资源简介:
DriveMLLM数据集由中国科学院自动化研究所等机构创建,专注于自动驾驶场景中的空间理解任务。该数据集包含880张前向摄像头图像,涵盖绝对和相对空间推理任务,并附有丰富的自然语言问题。数据集的创建基于nuScenes数据集,经过严格筛选和标注,确保图像中对象的清晰可见性和空间关系的明确性。DriveMLLM旨在评估和提升多模态大语言模型在自动驾驶中的空间推理能力,解决复杂空间关系理解的问题。
提供机构:
中国科学院自动化研究所
创建时间:
2024-11-20
原始信息汇总

DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

数据集概述

  • 数据集名称: MLLM_eval_dataset
  • 数据来源:
    • 图像数据来自nuScenes验证集中的CAM_FRONT
    • 提供了一个metadata.jsonl文件,包含图像的属性如location2D
  • 数据集用途: 用于评估多模态大语言模型在自动驾驶中的空间理解能力。

数据集使用

0. 准备数据集

1. 环境设置

2. 推理

  • 推理脚本:
    • GPT API: shell export OPENAI_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gpt --model gpt-4o --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Gemini API: shell export GOOGLE_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gemini --model models/gemini-1.5-flash --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Local LLaVA-Next: shell python inference/get_MLLM_output.py --model_type llava --model lmms-lab/llava-onevision-qwen2-7b-si --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

    • Local QWen2-VL: shell python inference/get_MLLM_output.py --model_type qwen --model Qwen/Qwen2-VL-7B-Instruct --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs

3. 评估

  • 评估脚本:
    • 评估所有结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path all

    • 评估特定结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path gemini/gemini-1.5-flash

引用

@article{DriveMLLM, title={DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving}, author={Guo, Xianda and Zhang Ruijun and Duan Yiqun and He Yuhang and Zhang, Chenming and Chen, Long}, journal={arXiv preprint arXiv:2411.13112}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
DriveMLLM数据集的构建基于nuScenes数据集,该数据集包含来自六个摄像头覆盖360度视野的图像,以及LiDAR、雷达和GPS/IMU数据。研究团队从中精选了880张前向摄像头图像,这些图像具有清晰的物体外观,适用于绝对和相对空间推理任务。此外,团队还生成了多样化的自然语言问题,并设计了新的评估指标,以全面评估多模态大语言模型(MLLMs)在自动驾驶环境中的空间理解能力。
使用方法
DriveMLLM数据集主要用于评估和提升多模态大语言模型在自动驾驶环境中的空间理解能力。研究者可以通过该数据集对模型进行训练和测试,利用其提供的图像和自然语言问题,评估模型在绝对和相对空间推理任务中的表现。数据集还提供了详细的评估协议和指标,帮助研究者量化模型的性能,并为进一步的研究和模型优化提供方向。
背景与挑战
背景概述
自动驾驶技术的发展对3D环境理解提出了全面要求,以支持运动预测、规划和地图构建等高级任务。在此背景下,DriveMLLM数据集应运而生,由武汉大学、中国科学院自动化研究所、Waytous、悉尼科技大学、牛津大学和TikTok等机构的研究人员共同创建。该数据集旨在评估多模态大语言模型(MLLMs)在自动驾驶中的空间理解能力,包含2,734张前向摄像头图像,并引入了绝对和相对空间推理任务,伴随多样化的自然语言问题。通过提出新的评估指标,DriveMLLM揭示了当前模型在理解复杂空间关系方面的局限性,强调了开发更先进的MLLM空间推理方法的必要性。
当前挑战
DriveMLLM数据集面临的挑战主要集中在两个方面:一是解决自动驾驶领域中复杂空间关系的理解问题,这要求模型能够处理和推理图像中的多对象空间关系;二是在构建过程中,数据集需要从nuScenes数据集中精心筛选和标注,确保图像中的对象清晰可见且无遮挡,同时生成多样化的自然语言描述以支持多模态模型的评估。此外,当前MLLMs在处理绝对空间任务时表现不佳,表明在精确空间测量和深度感知方面仍有显著提升空间。
常用场景
经典使用场景
DriveMLLM 数据集的经典使用场景主要集中在自动驾驶领域中多模态大语言模型(MLLMs)的空间理解能力评估。该数据集通过包含2,734张前向摄像头图像,并设计了绝对和相对空间推理任务,以及多样化的自然语言问题,来测试模型在复杂驾驶环境中的空间关系理解能力。这些任务包括物体定位、边界框确定、相机到物体的距离估计等,旨在全面评估模型在自动驾驶场景中的空间感知和推理能力。
解决学术问题
DriveMLLM 数据集解决了自动驾驶领域中多模态大语言模型在空间理解方面的常见学术研究问题。通过引入绝对和相对空间推理任务,该数据集揭示了当前模型在理解复杂空间关系方面的局限性,强调了开发更高级空间推理方法的必要性。这不仅推动了自动驾驶技术的进步,还为多模态模型的研究提供了新的方向和挑战。
实际应用
在实际应用中,DriveMLLM 数据集为自动驾驶系统的开发和测试提供了宝贵的资源。通过评估模型在真实驾驶场景中的空间理解能力,该数据集帮助识别和改进自动驾驶系统中的关键技术瓶颈。此外,它还促进了多模态大语言模型在自动驾驶领域的应用,提升了系统的安全性和可靠性。
数据集最近研究
最新研究方向
在自动驾驶领域,DriveMLLM数据集的最新研究方向主要集中在多模态大语言模型(MLLMs)的空间理解能力评估上。该数据集通过引入绝对和相对空间推理任务,以及多样化的自然语言问题,旨在全面评估MLLMs在复杂驾驶环境中的表现。研究者们通过设计新的评估指标,对多种最先进的MLLMs进行了测试,揭示了当前模型在理解复杂空间关系方面的局限性。这些发现强调了开发更高级的基于MLLM的空间推理方法的必要性,并突显了DriveMLLM在推动自动驾驶领域进一步研究中的潜力。
相关研究论文
  • 1
    DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving中国科学院自动化研究所 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

中国近海地形数据集(渤海,黄海,东海,南海)

本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。

地球大数据科学工程 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录