five

OpenDriveLab/OpenDV-YouTube-Language|自动驾驶数据集|视频分析数据集

收藏
hugging_face2024-03-28 更新2024-06-11 收录
自动驾驶
视频分析
下载链接:
https://hf-mirror.com/datasets/OpenDriveLab/OpenDV-YouTube-Language
下载链接
链接失效反馈
资源简介:
`OpenDV-YouTube`数据集是一个包含`context`和`command`语言注释的数据集,主要用于自动驾驶领域的研究。数据集中的注释包括视频剪辑的命令(cmd)和上下文(blip),其中上下文是对视频剪辑中心帧的描述,由`BLIP2`生成。用户可以通过提供的代码加载这些注释,并按照指定的结构进行处理。数据集的使用建议在`Linux`环境下进行,以避免`Windows`系统中的文件路径问题。

`OpenDV-YouTube`数据集是一个包含`context`和`command`语言注释的数据集,主要用于自动驾驶领域的研究。数据集中的注释包括视频剪辑的命令(cmd)和上下文(blip),其中上下文是对视频剪辑中心帧的描述,由`BLIP2`生成。用户可以通过提供的代码加载这些注释,并按照指定的结构进行处理。数据集的使用建议在`Linux`环境下进行,以避免`Windows`系统中的文件路径问题。
提供机构:
OpenDriveLab
原始信息汇总

数据集概述:OpenDV-YouTube

数据集内容

使用方法

  • 数据准备:需按照OpenDV-YouTube的指导下载并准备数据。

  • 环境建议:推荐在Linux环境下处理数据,因Windows可能存在文件路径问题。

  • 代码示例: python import json

    训练数据

    full_annos = [] for split_id in range(10): split = json.load(open("10hz_YouTube_train_split{}.json".format(str(split_id)), "r")) full_annos.extend(split)

    验证数据

    val_annos = json.load(open("10hz_YouTube_val.json", "r"))

数据结构

  • 每个视频剪辑的标注: python { "cmd": <int> -- 命令,即视频剪辑中自我车辆的命令。 "blip": <str> -- 上下文,即视频剪辑中心帧的BLIP描述。 "folder": <str> -- 从处理后的OpenDV-YouTube数据集根目录到视频剪辑图像文件夹的相对路径。 "first_frame": <str> -- 剪辑中第一帧的文件名。 "last_frame": <str> -- 剪辑中最后一帧的文件名。 }

  • 命令转换:使用map_category_to_caption函数将cmd字段转换为自然语言,详见cmd2caption.py

  • 上下文描述blip字段描述视频剪辑中心帧,由BLIP2生成。

许可证

  • 许可证类型:CC-BY-NC-SA-4.0
AI搜集汇总
数据集介绍
main_image_url
构建方式
OpenDV-YouTube-Language数据集的构建基于对YouTube视频的深入分析,通过提取视频中的关键帧并生成相应的上下文描述和命令标签。具体而言,数据集包含了视频片段的中心帧描述(由BLIP2生成)以及自车在视频片段中的命令信息。这些数据通过精细的分割和标注过程,确保了每个视频片段的上下文和命令信息的高质量与一致性。
特点
该数据集的显著特点在于其丰富的上下文描述和精确的命令标签,这为自动驾驶领域的研究提供了宝贵的资源。每个视频片段不仅包含了视觉信息的描述,还附带了自车的具体操作命令,使得数据集在训练和评估自动驾驶模型时具有高度的实用性和参考价值。此外,数据集的多样性和广泛性也确保了其在不同场景下的适用性。
使用方法
使用OpenDV-YouTube-Language数据集时,首先需按照指引下载并准备数据,推荐在Linux环境下进行处理以避免路径问题。通过加载相应的JSON文件,用户可以获取每个视频片段的详细标注信息,包括命令、上下文描述、图像文件夹路径以及视频片段的首尾帧信息。利用提供的映射函数,命令标签可转换为自然语言描述,便于进一步的分析和应用。
背景与挑战
背景概述
在自动驾驶领域,理解和处理复杂的驾驶环境是实现安全自主驾驶的关键。OpenDriveLab/OpenDV-YouTube-Language数据集由OpenDriveLab团队创建,旨在通过提供丰富的语言注释来增强自动驾驶系统的环境理解能力。该数据集包含了视频片段的上下文描述和命令,这些注释是通过BLIP2模型生成的,能够帮助研究人员更好地理解和模拟真实世界的驾驶场景。数据集的创建时间为2024年,主要研究人员包括Jiazhi Yang、Shenyuan Gao等,他们的研究聚焦于广义预测模型在自动驾驶中的应用,这一研究对提升自动驾驶系统的鲁棒性和适应性具有重要意义。
当前挑战
尽管OpenDV-YouTube-Language数据集为自动驾驶研究提供了宝贵的资源,但其构建和使用过程中仍面临若干挑战。首先,数据集的注释生成依赖于BLIP2模型,这要求模型具备高精度的图像理解能力,以确保注释的准确性和可靠性。其次,数据集的文件路径处理在Windows系统中可能存在问题,这要求用户在Linux环境下进行数据处理,增加了使用的复杂性。此外,将命令字段转换为自然语言描述的过程需要依赖特定的映射函数,这增加了数据处理的步骤和复杂度。这些挑战需要在未来的研究中得到解决,以提升数据集的易用性和实用性。
常用场景
经典使用场景
在自动驾驶领域,OpenDV-YouTube-Language数据集的经典使用场景主要集中在视频片段的语言标注上。该数据集提供了丰富的上下文信息和指令,使得研究人员能够训练和验证自动驾驶系统在复杂环境中的决策能力。通过分析视频片段中的中心帧描述和车辆指令,模型可以学习如何在不同交通场景中做出合适的驾驶决策。
衍生相关工作
基于OpenDV-YouTube-Language数据集,许多相关的经典工作得以展开。例如,研究人员利用该数据集开发了多种多模态融合模型,以提高自动驾驶系统的感知和决策能力。此外,该数据集还促进了跨学科的研究,如计算机视觉与自然语言处理的结合,推动了自动驾驶技术的前沿发展。
数据集最近研究
最新研究方向
在自动驾驶领域,OpenDV-YouTube-Language数据集的最新研究方向主要集中在多模态数据融合与自然语言处理技术的结合上。该数据集通过提供视频片段的上下文描述和命令信息,为研究者提供了一个丰富的资源,用于开发和验证自动驾驶系统中的预测模型。特别是,结合BLIP2生成的中心帧描述,研究者能够更精确地理解驾驶环境,从而提升自动驾驶系统的决策能力。此外,数据集的跨平台处理需求也推动了在不同操作系统下数据处理的优化研究,确保了数据集在实际应用中的广泛适用性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

rule34lol-images-part1

该数据集包含来自rule34.lol图像板的196,000个图像文件的元数据。元数据包括URL、标签、文件信息和点赞数。实际图像文件存储在zip存档中,每个存档包含1000个图像。该数据集是更大集合的一部分,分为Part 1和Part 2。数据集采用CC0许可,允许免费使用、修改和分发,无需署名。

huggingface 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录