DriveMLLM|自动驾驶数据集|空间理解数据集
收藏DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
数据集概述
- 数据集名称: MLLM_eval_dataset
- 数据来源:
- 图像数据来自nuScenes验证集中的
CAM_FRONT
。 - 提供了一个
metadata.jsonl
文件,包含图像的属性如location2D
。
- 图像数据来自nuScenes验证集中的
- 数据集用途: 用于评估多模态大语言模型在自动驾驶中的空间理解能力。
数据集使用
0. 准备数据集
- 数据集链接: MLLM_eval_dataset
1. 环境设置
- 环境设置文档: Setup Environment
2. 推理
- 推理脚本:
-
GPT API: shell export OPENAI_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gpt --model gpt-4o --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs
-
Gemini API: shell export GOOGLE_API_KEY=your_api_key python inference/get_MLLM_output.py --model_type gemini --model models/gemini-1.5-flash --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs
-
Local LLaVA-Next: shell python inference/get_MLLM_output.py --model_type llava --model lmms-lab/llava-onevision-qwen2-7b-si --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs
-
Local QWen2-VL: shell python inference/get_MLLM_output.py --model_type qwen --model Qwen/Qwen2-VL-7B-Instruct --hf_dataset bonbon-rj/MLLM_eval_dataset --prompts_dir prompt/prompts --save_dir inference/mllm_outputs
-
3. 评估
- 评估脚本:
-
评估所有结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path all
-
评估特定结果: shell python evaluation/eval_from_json.py --hf_dataset bonbon-rj/MLLM_eval_dataset --eval_root_dir inference/mllm_outputs --save_dir evaluation/eval_result --eval_model_path gemini/gemini-1.5-flash
-
引用
@article{DriveMLLM, title={DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving}, author={Guo, Xianda and Zhang Ruijun and Duan Yiqun and He Yuhang and Zhang, Chenming and Chen, Long}, journal={arXiv preprint arXiv:2411.13112}, year={2024} }

- 1DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving中国科学院自动化研究所 · 2024年
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录