Leyo/ActivityNet_Captions
收藏Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Leyo/ActivityNet_Captions
下载链接
链接失效反馈官方服务:
资源简介:
ActivityNet Captions数据集是一个视频描述数据集,包含了20,000个视频,每个视频平均有3.65个时间标注的句子描述,总计100,000个句子。这些句子描述了视频中发生的多个事件,事件的时间跨度可以很长或很短,并且可以同时发生。数据集的标注由Amazon Mechanical Turk的众包人员完成,标注过程分为两步:首先写一个段落描述视频中的所有主要事件,然后标注每个句子所描述事件在视频中的开始和结束时间。数据集的语言为英语,视频的描述句子平均长度为13.48个单词。数据集的结构包括视频的唯一标识符、视频文件路径、视频时长、每个描述句子的开始和结束时间戳以及英语描述句子列表。数据集分为训练集、验证集和测试集,分别包含10,009、4,917和4,885个视频。
ActivityNet Captions Dataset is a video captioning dataset that comprises 20,000 videos. On average, each video includes 3.65 temporally annotated caption sentences, resulting in a total of 100,000 sentences across the entire dataset. These sentences describe multiple events unfolding in the videos, with event temporal spans varying from extremely short to quite long, and multiple events may occur concurrently. All annotations are completed by crowdworkers via Amazon Mechanical Turk, and the annotation procedure consists of two stages: first, draft a paragraph that summarizes all major events in the video; second, mark the start and end timestamps of the events described by each individual sentence within the video. The dataset is developed in English, and the average length of the caption sentences is 13.48 words. The dataset structure contains the video's unique identifier, video file path, video duration, the start and end timestamps for each caption sentence, and the list of English caption sentences. The dataset is divided into training, validation, and test splits, which respectively contain 10,009, 4,917, and 4,885 videos.
提供机构:
Leyo
原始信息汇总
数据集概述
数据集名称
- 名称: ActivityNet Captions
数据集描述
数据集摘要
- 摘要: ActivityNet Captions 数据集包含20,000个视频,每个视频平均有3.65个时间标注的句子描述,总计100,000个句子。每个句子描述视频中的一个独特片段,描述的事件时间长度不限,可以同时发生。句子平均长度为13.48个单词。
语言
- 语言: 英语
数据集结构
数据字段
video_id: 视频的唯一标识符video_path: 视频文件路径duration: 视频时长captions_starts: 描述开始时间的列表captions_ends: 描述结束时间的列表en_captions: 描述视频部分的英文句子列表
数据分割
- 分割: 训练集、验证集、测试集
- 视频数量: 训练集10,009个,验证集4,917个,测试集4,885个,总计19,811个视频
数据集创建
注释者
- 注释者: Amazon Mechanical Turk 注释者
注释过程
- 过程: 注释任务分为两步:(1) 编写描述视频中主要事件的段落,每个句子描述一个事件;(2) 标记每个句子在视频中发生的时间段。
使用数据集的考虑
社会影响
- 信息: 待补充
偏见讨论
- 信息: 待补充
其他已知限制
- 信息: 待补充
搜集汇总
数据集介绍

构建方式
在视频理解领域,ActivityNet Captions数据集的构建体现了精细的时序标注理念。该数据集源自ActivityNet视频集合,通过亚马逊众包平台招募标注者,采用两步标注流程:首先,标注者观看视频并撰写段落,其中每个句子描述一个独立事件;随后,为段落中的每个句子精确标注其在视频中对应事件的开始与结束时间戳。这一方法确保了描述与视频片段的严格时序对齐,最终产生了约两万条视频与十万条带时间边界的句子描述,为密集视频描述任务奠定了高质量的数据基础。
特点
ActivityNet Captions数据集的核心特点在于其密集且时序精细的标注结构。每条视频平均关联3.65个描述性句子,每个句子平均包含13.48个单词,且句子数量与视频时长呈正相关分布,这反映了真实世界中事件描述的复杂性。标注不仅覆盖了长短不一的时间片段,而且允许事件在时间上重叠发生,从而更真实地模拟了视频内容的动态性与并发性。这种结构为模型学习视频中多尺度、共现事件的语义描述提供了丰富而自然的训练环境。
使用方法
该数据集主要用于视频密集描述生成任务的研究与评估。使用者可依据标准划分的训练、验证和测试集,利用提供的视频路径、时长、时间戳列表及英文描述句子进行模型训练。典型应用包括开发端到端的模型,以视频为输入,预测一系列带有起止时间的描述性字幕。研究社区常以此数据集为基准,评估模型在时序定位与自然语言生成联合任务上的性能,推动视频内容理解技术向更细粒度、更连贯的描述能力发展。
背景与挑战
背景概述
ActivityNet Captions数据集诞生于2017年,由斯坦福大学等研究机构的Ranjay Krishna、Kenji Hata、Frederic Ren、李飞飞和Juan Carlos Niebles等学者共同构建,旨在推动视频密集事件描述领域的研究。该数据集的核心研究问题聚焦于如何对视频中的多个事件进行时序定位与自然语言描述,从而实现对视频内容的细粒度理解。其影响力深远,为视频理解、跨模态学习及自动视频摘要等任务提供了关键的数据支撑,促进了计算机视觉与自然语言处理领域的深度融合。
当前挑战
该数据集旨在解决视频密集事件描述的挑战,即如何准确捕捉视频中多个事件的时序边界并生成连贯的描述,这要求模型具备强大的时空推理与语言生成能力。在构建过程中,挑战主要源于众包标注的复杂性:标注者需在观看长视频后,将事件分解为句子并精确标注起止时间,这一过程易受主观判断和时序标注不一致性的影响,导致标注质量波动,增加了数据清洗与对齐的难度。
常用场景
经典使用场景
在视频理解与内容分析领域,ActivityNet Captions数据集以其精细的时间标注和丰富的描述性文本,成为视频密集描述任务的核心资源。该数据集通过将视频片段与多句英文描述精确对齐,为模型提供了学习视频事件时序结构和语义关联的标准化基准。研究者通常利用其训练端到端的神经网络,以生成连贯且时间定位准确的视频描述,推动了视频到文本转换技术的边界。
解决学术问题
该数据集有效应对了视频内容理解中的关键挑战,特别是长视频中多事件密集描述与时间定位的难题。通过提供大规模、高质量的时间-文本对齐标注,它支持了视频事件检测、时序动作分割以及跨模态表示学习等研究方向。其标注结构促进了模型对视频动态演化和复杂事件共现关系的建模,为计算机视觉与自然语言处理的交叉领域奠定了实证基础,显著提升了视频语义解析的精度与鲁棒性。
衍生相关工作
围绕该数据集,学术界涌现了一系列经典工作,如Dense-Captioning Events in Videos论文提出的密集描述框架,奠定了视频事件描述的基础。后续研究扩展了其应用,包括基于注意力机制的时序定位模型、多模态预训练方法如VideoBERT和ActBERT,以及结合强化学习的描述生成技术。这些工作不仅深化了对视频语义的理解,还推动了跨模态学习、弱监督定位等领域的发展,形成了持续演进的研究脉络。
以上内容由遇见数据集搜集并总结生成



