five

Dynamic-VLM|视频理解数据集|大语言模型数据集

收藏
arXiv2024-12-13 更新2024-12-25 收录
视频理解
大语言模型
下载链接:
https://github.com/Hon-Wong/ByteVideoLLM
下载链接
链接失效反馈
资源简介:
Dynamic-VLM是一个用于训练视频大语言模型(VideoLLM)的高质量合成视频-文本数据集,由字节跳动公司创建。该数据集包含200万条视频问答对,涵盖多种任务类型,如感知任务、时间任务、推理任务等。数据集的创建过程包括从多个现有数据集(如WebVid-10M、InternVid-10M和HDVILA-100M)中提取原始视频,并通过精心设计的提示生成问答对。Dynamic-VLM数据集的应用领域广泛,旨在提升视频理解模型的性能,特别是在处理长视频和复杂视频任务方面。
提供机构:
字节跳动公司
创建时间:
2024-12-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
Dynamic-VLM数据集的构建基于大规模合成数据,主要通过对现有视频数据集(如WebVid-10M、InternVid-10M和HDVILA-100M)进行筛选和处理。首先,通过去除重复视频和低质量标注,确保数据集的多样性和质量。随后,利用GPT-4V和GPT-4o等闭源模型生成视频问答对,设计多样化的提示词以涵盖广泛的视频理解任务。最终,数据集包含约200万个视频问答对,涵盖了感知、推理、时间感知等多种任务类型。
使用方法
Dynamic-VLM数据集的使用方法主要包括预训练和微调两个阶段。在预训练阶段,模型首先在图像数据集上进行训练,以建立良好的初始参数。随后,在视频数据集上进行微调,进一步提升模型在视频理解任务中的表现。在推理阶段,模型根据视频长度动态调整视觉标记的数量,短视频保持较高的标记数量以保留细节,长视频则采用高压缩比以增强时间细节。通过这种方式,模型能够在不同长度的视频任务中表现出色,并在多图像理解任务中展现出强大的泛化能力。
背景与挑战
背景概述
Dynamic-VLM数据集由字节跳动公司于2024年提出,旨在解决视频大语言模型(VideoLLM)在处理长视频时的效率与性能问题。随着视觉-语言大模型(LVLM)在图像理解领域的显著进展,视频数据的处理仍面临诸多挑战,尤其是缺乏高质量的视频-文本数据集。Dynamic-VLM通过引入动态视觉标记压缩架构,显著提升了模型在视频任务中的表现,并在多个基准测试中取得了领先的成绩。该数据集的构建依赖于闭源模型生成的合成数据,涵盖了广泛的视频问答任务,为视频理解领域的研究提供了新的基准。
当前挑战
Dynamic-VLM数据集在构建和应用过程中面临多重挑战。首先,视频数据的复杂性远高于图像,尤其是长视频的时序信息处理需要模型具备更强的上下文理解能力。其次,现有的VideoLLM大多基于单图像模型扩展,难以高效处理长视频中的细节信息,导致性能下降。此外,数据集的构建依赖于闭源模型生成的合成数据,如何确保数据的多样性和质量成为关键问题。最后,动态视觉标记压缩架构的设计需要在计算效率与模型性能之间找到平衡,这对算法的优化提出了更高的要求。
常用场景
经典使用场景
Dynamic-VLM数据集在视频理解领域具有广泛的应用,尤其是在视频问答(VideoQA)任务中表现出色。该数据集通过动态视觉标记压缩技术,能够有效处理不同长度的视频,确保在短视频中保留细节信息,而在长视频中通过高压缩比提升时间维度的理解。这种灵活性使得Dynamic-VLM在开放式的视频问答、多选视频问答以及多图像问答任务中均取得了显著的性能提升。
解决学术问题
Dynamic-VLM数据集解决了当前视频大语言模型(VideoLLMs)在处理长视频时面临的挑战,特别是如何在保持计算效率的同时提升模型性能。通过引入动态视觉标记压缩架构,该数据集有效平衡了视频帧数与每帧标记数之间的关系,避免了传统方法在处理长视频时因固定压缩比而导致的信息丢失问题。此外,该数据集还填补了高质量视频指令调优数据的空白,为视频理解领域的研究提供了强有力的支持。
实际应用
Dynamic-VLM数据集在实际应用中展现了强大的潜力,尤其是在视频内容分析、智能视频监控以及视频生成等领域。例如,在智能视频监控中,Dynamic-VLM能够高效处理长时间的视频流,准确识别关键事件;在视频生成任务中,该数据集通过动态压缩技术,能够生成更具时间连贯性的视频内容。此外,Dynamic-VLM还在教育、医疗等领域的视频分析任务中展现了广泛的应用前景。
数据集最近研究
最新研究方向
近年来,随着大视觉语言模型(LVLM)在图像和视频分析领域的广泛应用,视频理解任务的研究逐渐成为热点。然而,现有的视频数据集在质量和多样性上仍存在不足,尤其是针对长视频的处理能力有限。Dynamic-VLM数据集的提出,填补了这一空白,通过引入动态视觉令牌压缩架构,显著提升了视频理解任务的性能。该数据集不仅涵盖了广泛的视频问答任务,还通过灵活的令牌压缩机制,有效平衡了计算效率与模型表现。Dynamic-VLM在多个视频任务中取得了最先进的成果,尤其是在长视频处理和多图像理解任务中展现了卓越的泛化能力。这一研究为视频大语言模型(VideoLLM)的发展提供了新的基准,推动了视频理解领域的进一步突破。
相关研究论文
  • 1
    Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM字节跳动公司 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

gold-prices

自1950年以来的每月黄金价格数据,以美元计价(伦敦市场)。数据来源于德国联邦银行。

github 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。

github 收录

Yahoo Finance Historical Data

该数据集包含来自Yahoo Finance的历史股票数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集的时间跨度从2000年1月至今,提供了全球多个市场的股票数据。

finance.yahoo.com 收录