HuggingFaceM4/ActivitiyNet_Captions
收藏Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/ActivitiyNet_Captions
下载链接
链接失效反馈官方服务:
资源简介:
ActivityNet Captions数据集将视频与一系列时间标注的句子描述连接起来。每个句子描述视频中的一个独特片段,涵盖多个事件。这些事件可能发生在很长或很短的时间内,并且没有限制,允许它们同时发生。平均而言,每个视频包含3.65个时间标注的句子,总共有100k个句子。随着视频时长的增加,句子的数量也会增加。每个句子的平均长度为13.48个单词。数据集的标注由Amazon Mechanical Turk的众包人员完成,标注过程包括描述视频中的主要事件,并标注每个事件在视频中的开始和结束时间。
The ActivityNet Captions dataset links videos to a collection of temporally annotated sentence descriptions. Each sentence corresponds to a distinct segment of the video and covers multiple events, which may span either long or short durations with no constraints and can occur concurrently. On average, each video contains 3.65 temporally annotated sentences, and the entire dataset comprises 100,000 sentences in total. The number of annotated sentences per video increases as the video's duration grows longer. The average length of each sentence is 13.48 words. The annotations for this dataset were crowdsourced via Amazon Mechanical Turk, and the annotation process requires workers to describe the main events in the video and mark the start and end timestamps of each event within the video.
提供机构:
HuggingFaceM4
原始信息汇总
数据集卡片 - ActivityNet Captions
数据集描述
数据集概述
ActivityNet Captions 数据集将视频与一系列时间注释的句子描述连接起来。每个句子覆盖视频的一个独特片段,描述多个事件的发生。这些事件可能发生在非常长或短的时间段内,并且不受任何限制,允许它们同时发生。平均而言,每个20k视频包含3.65个时间本地化的句子,总计100k个句子。我们发现每个视频的句子数量遵循相对正常的分布。此外,随着视频持续时间的增加,句子数量也增加。每个句子的平均长度为13.48个单词,这也是正态分布的。
语言
数据集中的字幕为英语。
数据集结构
数据字段
video_id:str视频的唯一标识符video_path:str视频文件的路径duration:float32视频的持续时间captions_starts:List_float32表示每个字幕开始时间的列表captions_ends:List_float32表示每个字幕结束时间的列表en_captions:list_str描述视频部分的英语字幕列表
数据拆分
| train | validation | test | Overall | |
|---|---|---|---|---|
| # of videos | 10,009 | 4,917 | 4,885 | 19,811 |
数据集创建
个人和敏感信息
论文中没有特别提及。
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
许可信息
[更多信息需要]
引用信息
bibtex @inproceedings{krishna2017dense, title={Dense-Captioning Events in Videos}, author={Krishna, Ranjay and Hata, Kenji and Ren, Frederic and Fei-Fei, Li and Niebles, Juan Carlos}, booktitle={International Conference on Computer Vision (ICCV)}, year={2017} }
贡献
感谢 @leot13 添加此数据集。
搜集汇总
数据集介绍

构建方式
ActivityNet Captions数据集的构建采用了一种分两步的众包标注方法。首先,标注者需撰写一段描述视频中所有主要事件的段落,其中每个句子描述一个事件。其次,标注者为段落中的每个句子标注视频中的起始和结束时间,确保句子与视频中的事件在时间上对应。
特点
ActivityNet Captions数据集的特点在于,它将视频与一系列时间上注释的句子描述相结合。这些描述覆盖了视频的独特片段,涉及多个事件,无论事件持续时间长短,均可同时发生。该数据集包含20k个视频,平均每个视频有3.65个时间定位的句子,总计100k个句子,且句子的数量和视频时长呈正相关。
使用方法
使用ActivityNet Captions数据集时,用户可依据提供的视频ID、视频路径、时长、句子起始和结束时间戳以及英文描述等字段,进行视频字幕相关的任务训练和测试。数据集被分为训练集、验证集和测试集,分别包含10,009、4,917和4,885个视频,便于不同阶段的研究和应用。
背景与挑战
背景概述
ActivityNet Captions数据集,由斯坦福大学的研究团队创建于2017年,是一项将视频与一系列时间注释的句子描述相结合的成果。该数据集旨在解决视频领域中自动生成视频描述的问题,每个句子描述视频中的一个独特时间段,涵盖多个事件。该数据集包含20k个视频,共计100k个句子描述,平均每个视频有3.65个时间定位句子。ActivityNet Captions数据集的创建,为视频理解和生成领域的研究提供了重要资源,对相关领域的学术研究和应用开发产生了显著影响。
当前挑战
在研究领域中,ActivityNet Captions数据集面临的挑战主要包括:如何精确地定位视频中的事件并生成与之匹配的描述;如何处理视频内容中的多事件并发问题;以及如何优化算法以适应不同视频时长和事件复杂度的变化。在数据集构建过程中,挑战在于确保句子描述的准确性和时间定位的精确性,同时,还需考虑数据标注过程中的主观偏差和标注质量的一致性。
常用场景
经典使用场景
ActivityNet Captions数据集在视频字幕领域中被广泛运用,其经典使用场景在于为视频中的特定时间片段提供精确的文本描述。这一特性使得该数据集成为视频事件检测与描述、视频内容理解等研究的基石,研究者可以通过该数据集训练模型,以实现对视频内容中事件的细粒度识别与描述。
衍生相关工作
基于ActivityNet Captions数据集,衍生出了众多相关的研究工作,包括视频事件检测、视频问答、视频情感分析等领域的经典研究。这些工作不仅扩展了原始数据集的应用范围,也推动了多媒体分析与理解技术的发展。
数据集最近研究
最新研究方向
在视频字幕领域,ActivityNet Captions数据集以其对视频中事件的时间定位描述而独具特色。近期研究集中于深度学习模型在视频理解与生成时间敏感字幕中的应用,旨在提高字幕的准确性与连贯性。这一方向不仅推动了视频内容理解技术的发展,也对视频信息无障碍化具有重要意义。研究者们正致力于探索如何利用该数据集进一步提升模型的时序定位能力和事件描述的丰富性,以期为视障人士提供更加精准的视频内容描述。
以上内容由遇见数据集搜集并总结生成



