jylins/videoxum

Name: jylins/videoxum
Creator: jylins
Published: 2024-04-22 19:05:14
License: 暂无描述

Hugging Face2024-04-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jylins/videoxum

下载链接

链接失效反馈

官方服务：

资源简介：

VideoXum数据集是一个专注于跨模态视频摘要任务的大规模数据集。它基于ActivityNet Captions构建，包含超过14,000个长时间、开放领域的视频，每个视频配有10个相应的视频摘要，总计140,000个视频-文本摘要对。数据集的主要任务是生成包含视觉和文本元素且语义连贯的视频摘要。数据集的文本摘要均为英文。数据集的结构包括训练集、验证集和测试集，分别包含8,000、2,001和4,000个视频。每个视频的注释包括视频ID、持续时间、采样帧数、时间戳、文本摘要、视觉摘要和视觉摘要的一热编码。

提供机构：

jylins

原始信息汇总

数据集卡片：VideoXum

数据集描述

数据集概述

VideoXum 数据集是一个在视频摘要领域的新任务，从单模态扩展到跨模态视频摘要。该任务专注于创建包含视觉和文本元素且具有语义一致性的视频摘要。基于 ActivityNet Captions 构建，VideoXum 是一个大规模数据集，包含超过 14,000 个长时长的开放领域视频。每个视频配有 10 个相应的视频摘要，总计 140,000 个视频-文本摘要对。

语言

数据集中的文本摘要为英语。

数据集结构

数据分割

	训练集	验证集	测试集	总计
视频数量	8,000	2,001	4,000	14,001

数据资源

train_videoxum.json: 训练集的标注
val_videoxum.json: 验证集的标注
test_videoxum.json: 测试集的标注

数据字段

video_id: str 视频的唯一标识符。
duration: float 视频的总时长，以秒为单位。
sampled_frames: int 从源视频中以 1 fps 均匀采样的帧数。
timestamps: List_float 时间戳对列表，每个对表示视频中的一个片段的开始和结束时间。
tsum: List_str 每个文本视频摘要提供相应视频片段的摘要。
vsum: List_float 每个视觉视频摘要对应于每个视频片段的关键帧。维度 (3 x 10) 表示每个视频片段由 10 个不同的工人重新标注。
vsum_onehot: List_bool 从 vsum 转换的 one-hot 矩阵。维度 (10 x 83) 表示由 10 个工人标注的整个视频长度的 one-hot 标签。

标注样本

对于每个视频，我们雇佣工人标注十个缩短的视频摘要。 json { video_id: v_QOlSCBRmfWY, duration: 82.73, sampled_frames: 83, timestamps: [[0.83, 19.86], [17.37, 60.81], [56.26, 79.42]], tsum: [A young woman is seen standing in a room and leads into her dancing., The girl dances around the room while the camera captures her movements., She continues dancing around the room and ends by laying on the floor.], vsum: [[[ 7.01, 12.37], ...], [[41.05, 45.04], ...], [[65.74, 69.28], ...]] (3 x 10 dim), vsum_onehot: [[[0,0,0,...,1,1,...], ...], [[0,0,0,...,1,1,...], ...], [[0,0,0,...,1,1,...], ...],] (10 x 83 dim) }

搜集汇总

数据集介绍

构建方式

VideoXum数据集是在ActivityNet Captions的基础上构建的，旨在实现跨模态视频摘要任务，涵盖视觉和文本两种元素。该数据集包含了超过14,000个时长较长的开放域视频，每个视频配有10个相应的视频摘要，形成了总计140,000个视频-文本摘要对。数据集的构建采取了众包的方式，通过标注工作者对视频片段进行标注，生成具有时间戳的文本和视觉摘要。

特点

VideoXum数据集的特点在于其跨模态的摘要形式，既包括文本摘要也包括视觉摘要，且两者在语义上保持一致。数据集规模较大，涵盖了多样化的视频内容，适用于训练和评估视频摘要模型。此外，数据集提供了详细的视频片段时间戳，以及由不同工作者标注的视觉摘要的一-hot编码，为研究者提供了丰富的标注信息。

使用方法

使用VideoXum数据集时，研究者可以依据数据集提供的JSON文件结构，加载训练集、验证集和测试集的注释信息。每个视频的记录包括视频ID、时长、采样帧数、时间戳列表、文本摘要列表、视觉摘要列表以及一-hot编码矩阵。研究者可以利用这些信息来训练和评估跨模态视频摘要模型，进一步推动视频理解领域的研究。

背景与挑战

背景概述

VideoXum数据集是视频摘要领域的一项创新性任务，其研究范畴从单一模态扩展到跨模态视频摘要。该数据集的核心在于生成包含视觉和文本元素，并具有语义连贯性的视频摘要。VideoXum数据集建立在ActivityNet Captions的基础上，是一个大规模的数据集，包含超过14,000个时长较长的开放域视频，每个视频配备了10个相应的视频摘要，总计140,000个视频-文本摘要对。该数据集由Lin Jingyang等研究人员于2023年创建，并在IEEE Transactions on Multimedia上发表相关论文，对跨模态视频摘要领域产生了显著影响。

当前挑战

VideoXum数据集在研究领域中面临的挑战主要包括：1) 如何有效融合视频的视觉和文本信息，创建具有高语义连贯性的跨模态摘要；2) 在构建过程中，如何处理大规模视频数据的高效标注和质量控制问题。这些挑战对于推动跨模态视频摘要技术的发展和应用具有重要的研究价值。

常用场景

经典使用场景

在跨模态视频摘要领域，VideoXum数据集的典型应用场景在于，通过对视频内容进行视觉与文本的联合摘要，生成既包含关键视觉帧又涵盖核心文本描述的摘要。这一过程不仅要求算法能够理解视频的视觉内容，还需要把握视频中的文本信息，从而实现更加全面的信息提炼和表达。

解决学术问题

VideoXum数据集解决了传统视频摘要方法仅侧重于视觉信息或文本信息的局限性，为学术研究提供了结合视觉和文本的跨模态摘要的新视角。它有助于推动视频处理领域的研究，特别是在自动视频摘要、视频内容理解和多模态信息融合等方面，具有重要的学术价值。

衍生相关工作

基于VideoXum数据集，学术界已经衍生出一系列相关工作，包括但不限于改进跨模态特征提取方法、提出新的评价指标、探索多任务学习策略等。这些研究进一步拓展了跨模态视频摘要的边界，推动了相关技术的进步和创新发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集