Mining YouTube dataset

github2024-03-29 更新2024-05-31 收录

下载链接：

https://github.com/hildekuehne/Weak_YouTube_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Mining YouTube数据集（暂定名为Weak YouTube数据集）是一个大规模的实际基准，旨在评估无人类标注训练数据的人类动作识别自动化学习技术。该数据集基于从无标注视频中学习动作类和概念的想法构建，包含512个不同的类（包括背景513），以动词-对象组合形式存在，基于94个不同的动词和171个对象。

The Mining YouTube dataset (tentatively named the Weak YouTube dataset) is a large-scale practical benchmark designed to evaluate automated learning techniques for human action recognition without human-annotated training data. This dataset is constructed based on the idea of learning action classes and concepts from unlabeled videos, encompassing 512 distinct classes (including the background, totaling 513), presented in verb-object combinations, derived from 94 different verbs and 171 objects.

创建时间：

2019-04-11

原始信息汇总

数据集概述

数据集名称

Mining YouTube dataset

数据集目的

评估自动化学习技术在无人工标注训练数据的情况下的人类动作识别能力。

数据集组成

类别数量：512个不同的动作类别（包括背景共513个）。
类别形式：基于94个不同动词和171个对象的动词-对象组合。

训练数据

数据来源：YouTube上的公开视频内容，限定于烹饪视频，特别是基于鸡蛋的五种简单菜肴：“蛋卷”、“煎蛋”、“煎饼”、“蛋饼”和“炒蛋”。
数据量：约20000个视频ID。
数据采集方法：通过搜索视频字幕中标注的类别来提取训练样本。

测试数据

数据量：250个随机选择的烹饪视频，每种菜肴50个视频。
标注方式：每帧视频都进行密集标注，标注者需根据视频中的可见动作及音频描述进行标注。
标注验证：所有标注的动作类别需在训练数据中至少出现10次。

特征计算

特征提取方法：使用预训练在Kinetics数据集上的Temporal Segment Network框架，从BNInception架构的空间和时间流的最后一个全局池化层输出中提取特征。

任务描述

任务类型：评估不同方法和描述符的性能，特别是帧与给定有序动作类别集的时间对齐。
评估指标：使用Jaccard指数，计算交集与并集（IoU）和交集与检测（IoD）的比例。

搜集汇总

数据集介绍

构建方式

Mining YouTube数据集的构建基于从无标注视频中学习动作类别的理念，旨在评估无需人工标注训练数据的自动化学习技术。数据集通过利用视频中的语音信息提取可能的类别标签，特别针对教学视频中人们通常会解释和评论其动作的特点。数据集的训练数据来源于YouTube公开视频内容，主要集中在烹饪视频领域，特别是基于鸡蛋制备的五种简单菜肴。训练样本通过搜索视频字幕中的标注类别进行挖掘，最终构建了包含约20000个视频ID的训练集。

特点

Mining YouTube数据集包含512个不同的类别（包括背景类别共513个），基于94个动词和171个物体的组合。测试集由250个随机选择的烹饪视频组成，每个视频的每一帧都进行了密集标注，标注者需标注所有可见动作，并优先考虑音频评论中提到的动词-物体组合。所有标注的动作类别均需在训练数据中出现至少10次。数据集还提供了基于Temporal Segment Network框架预训练的特征，用于训练样本和测试数据的特征计算。

使用方法

Mining YouTube数据集的主要任务是评估不同方法和描述符在视频帧与给定有序动作类别之间的时间对齐性能。测试时，视频及其转录文本均可用，目标是将视频帧与给定的有序动作列表进行时间对齐。该任务的优势在于动作类别已预先定义，减少了错误同义词标签的问题。性能评估采用Jaccard指数，计算为交集与并集（IoU）以及交集与检测（IoD）的比值。

背景与挑战

背景概述

Mining YouTube数据集由Hilde Kühne等人于2019年提出，旨在为无需人工标注训练数据的自动化人类动作识别技术提供大规模真实世界基准。该数据集基于从无标注视频中学习动作类别和概念的理念，涵盖了512个不同的类别（包括背景类别共513个），这些类别基于94个动词和171个对象的组合。数据集的核心研究问题在于如何通过视频中的语音信息自动提取动作标签，特别是在教学视频中，人们通常会解释和评论他们的动作，从而为动作识别提供自然标注。该数据集主要聚焦于烹饪视频，特别是五种基于鸡蛋制作的简单菜肴，如煎蛋、炒蛋等，因其共享常见任务且适合挖掘相关动作类别。Mining YouTube数据集为动作识别领域提供了一种新的数据获取方式，推动了无监督学习在该领域的应用。

当前挑战

Mining YouTube数据集在构建和应用过程中面临多重挑战。首先，数据集的核心任务是从无标注视频中自动识别人类动作，这一任务本身具有较高的复杂性，尤其是在动作类别多样且背景复杂的情况下，如何准确提取和分类动作成为一大难题。其次，数据集的构建依赖于从视频字幕中挖掘动作标签，这一过程容易受到语音识别误差和字幕不完整性的影响，导致标签质量参差不齐。此外，尽管数据集聚焦于烹饪视频，但不同视频之间的拍摄角度、光照条件和动作执行方式差异较大，增加了模型训练的难度。最后，数据集的测试集需要对每一帧进行密集标注，这一过程不仅耗时耗力，还要求标注者具备较高的专业知识和一致性，以确保标注的准确性和可靠性。

常用场景

经典使用场景

Mining YouTube数据集在人类动作识别领域具有重要应用，特别是在无需人工标注训练数据的情况下，评估自动化学习技术的性能。该数据集通过从YouTube视频中提取语音信息，自动生成动作类别标签，为研究者提供了一个大规模的真实世界基准。其经典使用场景包括在烹饪视频中识别和分类特定动作，如“煎蛋”或“炒蛋”，从而验证算法在复杂视频内容中的表现。

解决学术问题

Mining YouTube数据集解决了在无监督或弱监督学习环境下，如何从大量未标注视频数据中自动提取动作类别的学术难题。通过利用视频中的语音信息生成标签，该数据集为研究者提供了一种无需人工干预的动作识别方法，显著降低了数据标注的成本和复杂性。这一创新为视频内容分析、动作识别和自动化学习领域的研究提供了新的思路和工具。

衍生相关工作

Mining YouTube数据集推动了多篇经典研究工作的诞生，例如基于弱监督学习的动作识别算法优化、视频帧与动作类别的时序对齐技术等。相关研究不仅验证了该数据集的有效性，还进一步拓展了其在视频分析领域的应用范围。这些工作为后续研究提供了宝贵的参考，推动了无监督学习和动作识别技术的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集