five

Intelligent Driving Knowledge Base (IDKB)|自动驾驶数据集|知识库数据集

收藏
arXiv2024-09-05 更新2024-09-06 收录
自动驾驶
知识库
下载链接:
https://4dvlab.github.io/project_page/idkb.html
下载链接
链接失效反馈
资源简介:
智能驾驶知识库(IDKB)是由上海科技大学和中国香港中文大学共同创建的,旨在为自动驾驶领域提供专业和系统的驾驶知识。该数据集包含超过一百万条数据,涵盖了15个国家的驾驶手册、理论测试数据和模拟道路测试数据,涉及9种语言和4种车辆类型。数据集的创建过程包括从互联网收集驾驶手册和测试问题,以及使用CARLA模拟器生成实际道路场景数据。IDKB的应用领域主要集中在提升大型视觉语言模型(LVLMs)在自动驾驶中的可靠性和安全性,通过提供结构化的驾驶知识数据,帮助模型更好地理解和应用驾驶规则和技能。
提供机构:
上海科技大学
创建时间:
2024-09-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
IDKB数据集的构建过程模拟了人类获取驾驶执照的系统性学习路径,涵盖了从理论到实践的各个环节。首先,通过互联网收集了来自15个不同国家的206份驾驶手册和交通法规文档,总计23,847页。随后,利用布局检测和光学字符识别(OCR)技术提取数据块,并通过算法对数据块进行聚类和排序,以确保数据的有序性和可读性。此外,通过CARLA模拟器生成了多样化的道路场景数据,包括不同天气、光照和交通条件下的模拟驾驶数据。最终,数据集包含了超过100万条数据项,涵盖了15个国家、9种语言和4种车辆类型,确保了数据的多样性和全面性。
使用方法
IDKB数据集的使用方法主要包括模型训练和性能评估两个方面。首先,研究人员可以使用该数据集对现有的视觉语言模型(LVLMs)进行微调,以增强其在自动驾驶领域的专业知识和技能。其次,数据集可以用于评估模型的驾驶知识掌握程度,通过多选题和问答题的测试,评估模型在理论和实践中的表现。此外,数据集还可以用于开发新的自动驾驶算法,通过模拟和实际数据的结合,提升算法在复杂交通环境中的鲁棒性和可靠性。
背景与挑战
背景概述
智能驾驶知识库(Intelligent Driving Knowledge Base, IDKB)是由上海科技大学和中国香港中文大学的研究人员于近期创建的大规模数据集。该数据集的核心研究问题在于弥补大型视觉语言模型(LVLMs)在专业驾驶知识方面的不足,特别是在交通规则和驾驶技能方面的明确指导。IDKB包含了从多个国家收集的超过一百万条数据,涵盖驾驶手册、理论测试数据和模拟道路测试数据,旨在从理论到实践全面覆盖驾驶所需的显性知识。该数据集的创建对自动驾驶领域具有重要影响力,因为它为评估和提升LVLMs在自动驾驶环境中的可靠性提供了坚实的基础。
当前挑战
IDKB在构建过程中面临的主要挑战包括从多个国家收集和整合驾驶知识数据的复杂性,以及确保数据的高质量和多样性。此外,现有的视觉语言驾驶数据集主要集中在场景理解和决策制定上,缺乏对交通规则和驾驶技能的明确指导,这限制了模型在实际应用中的稳定性和可靠性。IDKB通过提供结构化的驾驶知识数据,旨在解决这些挑战,但其应用仍需克服模型在多语言和多文化环境下的适应性问题,以及在复杂和长尾驾驶场景中的表现。
常用场景
经典使用场景
IDKB数据集的经典使用场景在于评估和提升大型视觉-语言模型(LVLMs)在自动驾驶领域的可靠性。通过包含驾驶手册、理论测试数据和模拟道路测试数据,IDKB能够全面评估LVLMs在驾驶知识理解、交通规则遵守和实际驾驶技能方面的表现。
解决学术问题
IDKB数据集解决了自动驾驶领域中LVLMs缺乏专业驾驶知识的问题。通过提供结构化的驾驶理论和实践知识,IDKB帮助学术界和工业界开发更安全、更可靠的自动驾驶系统。这不仅提升了模型的性能,还为自动驾驶技术的实际应用提供了坚实的理论基础。
实际应用
在实际应用中,IDKB数据集可以用于训练和验证自动驾驶系统中的视觉-语言模型。通过模拟各种道路场景和交通规则,IDKB确保了模型在不同驾驶环境下的适应性和鲁棒性。此外,IDKB还可以用于驾驶员培训系统,帮助新手驾驶员更好地理解和掌握驾驶知识。
数据集最近研究
最新研究方向
在智能驾驶领域,Intelligent Driving Knowledge Base (IDKB) 数据集的最新研究方向主要集中在利用大规模视觉语言模型(LVLMs)来增强自动驾驶系统的可靠性和安全性。研究者们通过整合来自不同国家的驾驶手册、理论测试数据和模拟道路测试数据,构建了一个包含超过一百万条数据项的综合数据集。该数据集不仅涵盖了场景理解和决策制定,还特别强调了交通规则和驾驶技能的显式指导,这对于提升自动驾驶系统的安全性能至关重要。通过在IDKB上对15种LVLMs进行全面测试和分析,研究者们发现,显式和结构化的驾驶知识显著提升了模型的性能,使其在实际应用中更加有效和准确。这一研究方向为自动驾驶技术的发展提供了新的视角和方法,特别是在如何更好地将专业驾驶知识融入到AI系统中,以实现更安全、更可靠的自动驾驶体验。
相关研究论文
  • 1
    Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving上海科技大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

中国区域1km分辨率逐月平均风速数据集(2000-2020年)

中国区域1km分辨率逐月平均风速数据集(2001-2020年),是基于再分析气候数据经过空间降尺度得到,包括中国陆地范围,空间分辨率1km,时间分辨率为逐月。可以为气候变化、生态学、农学等研究提供逐月平均风速数据。

国家地球系统科学数据中心 收录