i3-video
收藏github2021-11-16 更新2024-05-31 收录
下载链接:
https://github.com/google-research-datasets/i3-video
下载链接
链接失效反馈官方服务:
资源简介:
i3-video数据集包含从YouTube8M验证集中随机抽样的视频的是否为教学视频的人工标注。每个视频由三名付费标注者进行是或否的回答,判断视频是否主要关注真实世界的人类行动,并伴有详细解释屏幕上发生内容的程序性语言。
The i3-video dataset contains human annotations on whether videos randomly sampled from the YouTube8M validation set are instructional. Each video is evaluated by three paid annotators who answer yes or no to determine if the video primarily focuses on real-world human actions accompanied by procedural language that explains the content on the screen in detail.
创建时间:
2020-10-02
原始信息汇总
i3-video 数据集概述
数据集来源
i3-video 数据集是从 YouTube-8M 数据集 的验证集中抽样得到的视频,这些视频均包含英语自动语音识别(ASR),并遵守YouTube政策。
数据集内容
数据集包含6.8K个视频的标注信息,这些信息存储在一个CSV文件中,文件名为 i3-video-annotations.csv。每个视频由三名付费标注者进行评估,他们需要回答一个二元问题:“这个视频是否是广义上的教学视频?” 即视频是否主要关注现实世界中的人类行为,并伴随有详细解释屏幕上发生内容的程序性语言。
标注标准
标注者被指导根据以下标准进行标注:
- 如果视频是教程或如何操作视频,旨在教会用户如何自己完成某项任务,例如烹饪演示、解释如何进行刹车放气、如何拉伸脚部或如何做发型等,则标注为
Yes。 - 如果视频的主要焦点是现实世界的人类行为并伴随程序性语言,即使不是直接教导观众如何操作,也应标注为
Yes。例如,专业人士解释操作过程的教育视频或开箱视频等。 - 排除视觉信息主要为截图的视频。
- 标注应基于视频的主要焦点,排除那些主要展示产品而缺乏程序性语言的视频。
数据集结构
CSV文件中的数据结构如下:
Video id, human annotation
Video id:YouTube-8M发布的视频ID,用于保护上传者隐私的随机生成的ID。human annotation:视频收到的所有评级的字符串,通过-连接。评级可以是Yes、No或极少数情况下的Can’t Judge。大多数情况下(99.8%),每个视频收到三个评级;少数情况下,评级数量为1、2或4。96%的情况下,所有标注者意见一致。根据多数投票,73.6%的标注视频被判定为非教学视频。
搜集汇总
数据集介绍

构建方式
i3-video数据集的构建基于YouTube-8M数据集的验证集,从中筛选出带有英文自动语音识别(ASR)的视频。每个视频由三名付费标注者进行评估,他们根据视频内容是否属于广义上的教学视频进行标注。标注者需判断视频是否聚焦于现实世界中的人类行为,并伴有详细的程序性语言解释。最终,数据集以CSV文件形式发布,包含视频ID和人工标注结果。
使用方法
i3-video数据集的使用方法较为简便,用户可通过下载CSV文件获取视频ID和对应的标注结果。视频ID与YouTube-8M数据集中的ID一致,用户可通过提供的链接将ID转换为实际的YouTube视频ID。标注结果以字符串形式呈现,包含所有标注者的评分,用户可根据多数投票结果判断视频是否为教学视频。该数据集适用于视频内容分析、教学视频识别等研究领域。
背景与挑战
背景概述
i3-video数据集由Jack Hessel、Zhenhai Zhu、Bo Pang和Radu Soricut等研究人员于2020年创建,旨在扩展对YouTube视频中视觉-文本基础的研究。该数据集基于YouTube-8M数据集的验证集,通过人工标注的方式,筛选出具有教学性质的视频。其核心研究问题在于如何从海量的YouTube视频中识别出具有教学意义的视频,特别是那些包含现实世界人类行为并伴随详细过程性语言的视频。这一研究不仅丰富了视频内容理解的研究范畴,还为教育技术、视频推荐系统等领域提供了重要的数据支持。
当前挑战
i3-video数据集在构建和应用过程中面临多重挑战。首先,视频内容的多样性使得教学视频的界定变得复杂,标注者需要在广泛的视频类型中准确判断其是否具有教学性质。其次,数据集的构建依赖于人工标注,尽管标注者遵循了严格的指导原则,但主观判断仍可能导致标注结果的不一致性。此外,视频的隐私保护和数据可用性也是一个重要问题,数据集仅提供了YouTube-8M的随机ID,外部用户需通过特定工具才能获取原始视频,这在一定程度上限制了数据的直接应用。最后,数据集中非教学视频占比较高,如何从中有效提取教学视频并应用于实际场景,仍需进一步研究。
常用场景
经典使用场景
i3-video数据集在视频内容分析领域具有广泛的应用,特别是在识别和分类教学视频方面。通过对YouTube视频的标注,该数据集为研究者提供了一个丰富的资源,用于训练和验证机器学习模型,以自动识别视频是否属于教学类。这一过程不仅涉及视频内容的视觉分析,还包括对视频中语言信息的理解,从而实现对教学视频的精准分类。
解决学术问题
i3-video数据集解决了视频内容理解中的一个关键问题,即如何从海量的在线视频中自动识别出教学视频。这一问题在教育和信息检索领域尤为重要,因为它直接影响到用户能否快速找到所需的学习资源。通过提供大量标注数据,i3-video数据集为开发高效的视频分类算法奠定了基础,推动了视频内容理解技术的发展。
实际应用
在实际应用中,i3-video数据集被广泛用于教育技术平台的视频推荐系统中。通过利用该数据集训练的模型,平台能够自动筛选出教学视频,为用户提供个性化的学习资源推荐。此外,该数据集还被用于视频内容审核,帮助平台识别和过滤非教学类视频,提升用户体验。
数据集最近研究
最新研究方向
近年来,i3-video数据集在视频理解与多模态学习领域引起了广泛关注。该数据集通过标注YouTube视频是否为教学视频,为研究者提供了丰富的视觉-文本对齐数据。当前的研究方向主要集中在如何利用这些标注数据来改进视频内容理解模型,特别是在教学视频的自动识别与分类任务中。随着深度学习技术的进步,研究者们正探索如何结合视觉与文本信息,构建更强大的多模态模型,以提升对视频内容的语义理解能力。此外,i3-video数据集还被用于推动教学视频生成与推荐系统的研究,帮助开发更智能的教育技术工具。这些研究不仅推动了视频理解领域的前沿发展,也为教育技术的创新提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



