jylins/videoxum
收藏数据集卡片:VideoXum
数据集描述
数据集概述
VideoXum 数据集是一个在视频摘要领域的新任务,从单模态扩展到跨模态视频摘要。该任务专注于创建包含视觉和文本元素且具有语义一致性的视频摘要。基于 ActivityNet Captions 构建,VideoXum 是一个大规模数据集,包含超过 14,000 个长时长的开放领域视频。每个视频配有 10 个相应的视频摘要,总计 140,000 个视频-文本摘要对。
语言
数据集中的文本摘要为英语。
数据集结构
数据分割
| 训练集 | 验证集 | 测试集 | 总计 | |
|---|---|---|---|---|
| 视频数量 | 8,000 | 2,001 | 4,000 | 14,001 |
数据资源
train_videoxum.json: 训练集的标注val_videoxum.json: 验证集的标注test_videoxum.json: 测试集的标注
数据字段
video_id:str视频的唯一标识符。duration:float视频的总时长,以秒为单位。sampled_frames:int从源视频中以 1 fps 均匀采样的帧数。timestamps:List_float时间戳对列表,每个对表示视频中的一个片段的开始和结束时间。tsum:List_str每个文本视频摘要提供相应视频片段的摘要。vsum:List_float每个视觉视频摘要对应于每个视频片段的关键帧。维度 (3 x 10) 表示每个视频片段由 10 个不同的工人重新标注。vsum_onehot:List_bool从 vsum 转换的 one-hot 矩阵。维度 (10 x 83) 表示由 10 个工人标注的整个视频长度的 one-hot 标签。
标注样本
对于每个视频,我们雇佣工人标注十个缩短的视频摘要。 json { video_id: v_QOlSCBRmfWY, duration: 82.73, sampled_frames: 83, timestamps: [[0.83, 19.86], [17.37, 60.81], [56.26, 79.42]], tsum: [A young woman is seen standing in a room and leads into her dancing., The girl dances around the room while the camera captures her movements., She continues dancing around the room and ends by laying on the floor.], vsum: [[[ 7.01, 12.37], ...], [[41.05, 45.04], ...], [[65.74, 69.28], ...]] (3 x 10 dim), vsum_onehot: [[[0,0,0,...,1,1,...], ...], [[0,0,0,...,1,1,...], ...], [[0,0,0,...,1,1,...], ...],] (10 x 83 dim) }




