ShareGPTVideo/train_video_and_instruction

Name: ShareGPTVideo/train_video_and_instruction
Creator: ShareGPTVideo
Published: 2024-12-14 21:29:49
License: 暂无描述

Hugging Face2024-12-14 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/ShareGPTVideo/train_video_and_instruction

下载链接

链接失效反馈

官方服务：

资源简介：

ShareGPTVideo数据集包含视频帧、视频指令、详细视频描述和视频问答对等内容，主要用于视频问答任务和模型训练。数据集分为300k和600k视频帧，分别用于微调和预训练阶段。此外，还提供了17k的视频偏好数据和900k的详细视频描述及问答对。数据集的语言为英语，任务类别包括问答和其他。

The ShareGPTVideo dataset contains video frames, video instructions, detailed video descriptions, video Q&A pairs and other related content, which is mainly used for video question answering tasks and model training. The dataset is divided into two subsets of 300k and 600k video frames, which are respectively used for the fine-tuning and pre-training stages. In addition, 17k video preference data, as well as 900k detailed video descriptions and Q&A pairs are provided. The dataset is in English, and its task categories include question answering and others.

提供机构：

ShareGPTVideo

原始信息汇总

数据集概述

数据集名称

ShareGPTVideo Training Data

数据集内容

Train 300k video frames
- 包含用于SFT和DPO模型的视频帧，总计300k，是900k总帧数的一部分。
- 组成：ActivityNet 50k + vidal 150k + webvid 100k。
Train 600k video frames
- 包含剩余的600k帧，总计900k帧用于预训练阶段。
- 组成：400k WebVid + 450k Vidal + 50k ActivityNet。
Instruction for DPO
- 包含17k视频偏好数据。
900k Detailed Video Caption
- 用于预训练的900k视频描述。
900k Video QA
- 对于上述300k视频帧，每帧生成3个QA对，总计900k。仅使用了240k子集用于SFT。

数据集属性

许可证：Apache-2.0
任务类别：Question-Answering, Other
语言：English
标签：GPT-4V, Video
大小类别：n < 1M

搜集汇总

数据集介绍

构建方式

在视频理解与多模态学习领域，ShareGPTVideo/train_video_and_instruction数据集的构建体现了系统化的数据整合与标注策略。该数据集通过融合ActivityNet、Vidal及WebVid三大公开视频资源，精心筛选出总计九十万帧视频图像，并依据训练阶段需求划分为三十万帧与六十万帧两个子集。其标注流程依托先进的GPT-4V模型，为每帧视频生成详尽的描述文本与问答对，同时专门构建了一万七千条视频偏好数据以支持直接偏好优化训练。整个构建过程注重数据多样性与质量平衡，为视频大型多模态模型的训练提供了坚实的数据基础。

使用方法

对于研究者而言，该数据集的使用需遵循其预设的训练流程。用户可通过提供的脚本便捷地克隆仓库并配置环境路径，从而获取结构化的视频帧文件与对应的指令数据。在实际应用中，数据集支持两种主要训练范式：基于三十万帧及其对应问答数据的监督微调，以及利用全部九十万帧与详细描述进行的预训练。对于追求更优对齐效果的模型，可进一步引入直接偏好优化数据，通过对比学习优化模型输出。数据以JSONL格式组织，便于流式读取与处理，研究者可根据具体任务灵活选择子集，并参考示例快速理解数据结构与字段含义。

背景与挑战

背景概述

随着多模态人工智能的蓬勃发展，视频理解与生成任务逐渐成为研究热点。在此背景下，ShareGPTVideo/train_video_and_instruction数据集应运而生，由研究团队于2024年构建，旨在推动视频大型多模态模型的直接偏好优化研究。该数据集整合了ActivityNet、Vidal及WebVid等知名视频资源，通过精心设计的监督微调与偏好对齐流程，为模型训练提供了丰富的视频帧、详细描述及问答对。其核心在于探索如何利用语言模型奖励机制，高效指导视频多模态模型的学习与优化，从而在视频内容理解与交互生成领域开辟新的技术路径。

当前挑战

该数据集致力于应对视频多模态理解中的核心难题，即如何让模型精准捕捉视频中的时序动态与复杂语义信息，并生成连贯、准确的文本响应。在构建过程中，研究团队面临多重挑战：首先，视频数据的标注成本高昂，需平衡大规模采集与高质量标注之间的张力；其次，多源视频数据的异构性，如不同分辨率、时长与内容主题，增加了数据清洗与对齐的复杂度；再者，生成多样化且具有判别性的问答对，要求深入理解视频内容并模拟人类对话逻辑，这对自动化标注流程提出了严峻考验。

常用场景

经典使用场景

在视频理解与多模态人工智能领域，ShareGPTVideo/train_video_and_instruction数据集为训练先进的视频大型多模态模型提供了关键资源。该数据集整合了来自ActivityNet、Vidal和WebVid的丰富视频帧，并辅以详尽的视频描述与问答对，其经典应用场景在于支持监督微调与直接偏好优化训练流程。研究人员利用这些标注数据，能够有效引导模型学习视频内容与自然语言指令之间的复杂对齐关系，从而提升模型在开放域视频问答任务中的准确性与泛化能力。

解决学术问题

该数据集致力于解决多模态人工智能中视频与语言联合建模的核心挑战。传统方法在理解动态视觉内容并生成连贯、准确的文本响应方面存在局限。通过提供大规模、高质量的（视频帧，指令，回答）三元组数据，以及用于偏好学习的对比样本，该数据集为训练端到端的视频-语言模型奠定了数据基础。它直接应对了模型在细粒度视频内容描述、复杂推理问答以及人类偏好对齐等方面的学术研究问题，推动了视频理解技术向更高效、更人性化的方向发展。

实际应用

超越纯学术探索，该数据集支撑的技术在多个实际场景中展现出应用潜力。基于其训练的模型，可赋能智能视频摘要系统，自动生成关键内容梗概；应用于交互式教育平台，能够根据教学视频内容即时回答学生提问；在无障碍技术领域，可为视障用户提供实时的视频内容语音描述。此外，在内容审核、视频检索增强以及具身智能的视觉感知模块中，此类模型也能发挥重要作用，将深度的视频理解能力转化为切实的产品功能与服务。

数据集最近研究