five

TB-Bench, TB-100k, TB-250k|自动驾驶数据集|多模态大语言模型数据集

收藏
arXiv2025-01-10 更新2025-01-14 收录
自动驾驶
多模态大语言模型
下载链接:
https://github.com/TB-AD/TB-Bench-110k-250k
下载链接
链接失效反馈
资源简介:
TB-Bench是由东北大学、RIKEN AIP中心和电装公司联合创建的一个综合性基准测试,旨在评估多模态大语言模型(MLLMs)在自动驾驶场景中的时空理解能力。该数据集包含2000个手动构建的样本,涵盖八个感知任务,如相对距离、空间推理、方向推理等。数据集通过从KITTI、ONCE和Argoverse 2等现有数据集中提取样本,生成了高质量的问题-答案对。TB-100k和TB-250k是用于视觉-语言指令调优的训练数据集,分别包含100,000和250,000个样本。这些数据集的应用领域主要集中在自动驾驶的感知、预测和规划阶段,旨在解决MLLMs在交通行为理解任务中的性能不足问题。
提供机构:
东北大学, RIKEN AIP中心, 电装公司
创建时间:
2025-01-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
TB-Bench数据集的构建基于多模态大语言模型(MLLMs)在自动驾驶场景中的时空理解需求。通过从KITTI、ONCE和Argoverse2等现有数据集中提取交通实体的三维几何信息,生成高质量的问题-答案对。具体而言,TB-Bench包含2000个手动筛选的样本,用于评估MLLMs在八种感知任务中的表现。此外,还生成了两个训练数据集TB-100k和TB-250k,分别包含10万和25万个样本,用于视觉-语言指令调优(VLIT)。数据生成过程包括从原始数据中提取关键信息,并通过规则和LLM增强生成复杂的自然语言问题-答案对。
特点
TB-Bench数据集的特点在于其专注于自动驾驶场景中的时空交通行为理解,涵盖了八种感知任务,包括相对距离、空间推理、方向推理、其他车道与自车的关系、车道变换、转弯行为等。数据集通过多帧图像和视频片段捕捉动态交通场景,确保了对MLLMs在复杂交通环境中的表现进行全面评估。TB-100k和TB-250k数据集则通过平衡样本分布和增加数据量,显著提升了MLLMs在交通行为理解任务中的表现。
使用方法
TB-Bench数据集的使用方法主要包括评估和训练两个阶段。在评估阶段,研究人员可以通过TB-Bench对现有的MLLMs进行零样本评估,测试其在八种感知任务中的表现。在训练阶段,TB-100k和TB-250k数据集可用于视觉-语言指令调优,通过微调基线模型,显著提升MLLMs在交通行为理解任务中的准确率。此外,TB-100k还可以与其他交通数据集联合训练,进一步提升模型在相关下游任务中的表现。
背景与挑战
背景概述
TB-Bench是由Tohoku University、RIKEN Center for AIP和DENSO CORPORATION的研究团队于2025年提出的一个多模态大语言模型(MLLM)基准测试数据集,旨在评估MLLM在自动驾驶(AD)场景中对时空交通行为的理解能力。该数据集包含TB-Bench基准测试集以及两个用于视觉-语言指令调优的数据集TB-100k和TB-250k。TB-Bench涵盖了从车辆视角出发的八种感知任务,包括相对距离、空间推理、方向推理等。通过引入这些数据集,研究团队展示了现有MLLM在交通行为理解任务中的不足,并提出了一个轻量级的基线模型,显著提升了MLLM在这些任务中的表现。该研究为MLLM在自动驾驶感知、预测和规划阶段的逐步集成提供了重要支持。
当前挑战
TB-Bench数据集面临的挑战主要体现在两个方面。首先,现有的MLLM在交通场景中的表现不佳,主要原因是这些模型缺乏针对交通数据的专门训练。尽管MLLM在通用视觉-语言任务中表现出色,但在复杂的时空推理任务中,如空间关系和对象交互的理解上,表现仍然有限。其次,构建TB-Bench数据集的过程中,研究团队面临了数据生成和标注的挑战。为了确保数据的高质量,团队从KITTI、ONCE和Argoverse2等现有数据集中提取信息,并通过规则生成和人工筛选的方式构建了高质量的问答对。此外,数据集的平衡性也是一个挑战,某些交通行为在自然场景中出现的频率较低,导致数据分布不均衡。这些挑战需要通过进一步的数据增强和模型优化来解决。
常用场景
经典使用场景
TB-Bench数据集主要用于评估多模态大语言模型(MLLMs)在自动驾驶场景中对时空交通行为的理解能力。通过从车载摄像头获取的图像或视频,模型需要完成八种感知任务,包括相对距离、空间推理、方向推理等。这些任务旨在模拟真实驾驶场景中的复杂交通行为,帮助模型从自我中心视角理解周围环境。
解决学术问题
TB-Bench解决了当前MLLMs在自动驾驶领域的两大挑战:一是缺乏针对交通场景的专用训练数据,二是缺少评估时空理解能力的基准。通过引入TB-Bench及其配套的训练数据集TB-100k和TB-250k,研究人员能够更准确地评估和提升MLLMs在交通行为理解任务中的表现,填补了现有基准的空白。
衍生相关工作
TB-Bench的推出催生了一系列相关研究工作,特别是在多模态大语言模型与自动驾驶的结合领域。例如,研究人员利用TB-100k与其他交通数据集进行联合训练,显著提升了模型在其他驾驶基准(如BDD-X)上的表现。此外,TB-Bench还为后续研究提供了基础,推动了MLLMs在自动驾驶感知、预测和规划阶段的进一步集成。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录