YouTube Sports-1M Dataset

github2024-04-24 更新2024-05-31 收录

下载链接：

https://github.com/gtoderici/sports-1m-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了1,133,158个YouTube视频的链接，这些视频被标注了487个体育标签。这些标注是通过YouTube Topics自动生成的，该功能可通过YouTube的公共API访问。数据集包括训练和测试分区，以及用于10折交叉验证的分区。

We provide links to 1,133,158 YouTube videos, which have been annotated with 487 sports-related tags. These annotations were automatically generated through YouTube Topics, a feature accessible via YouTube's public API. The dataset includes training and testing partitions, as well as partitions for 10-fold cross-validation.

创建时间：

2015-03-17

原始信息汇总

数据集概述

数据集名称

YouTube Sports-1M Dataset

数据集内容

包含1,133,158个YouTube视频链接，每个视频被标注有487种体育标签。
标签通过YouTube Topics的自动生成功能获得。

文件说明

original/test_partition.txt：包含测试集分区。
original/train_partition.txt：包含训练集分区。
labels.txt：包含训练和测试分区的可读标签。
sports_mids.txt：包含用于通过YouTube Topics搜索API检索视频的机器ID。
cross-validation/all_urls.txt：包含所有URL和标签，适用于交叉验证分区。
cross-validation/sportsX_train.txt & cross-validation/sportsX_test.txt：用于10折交叉验证的分区文件。

数据格式

训练/测试分区格式为：URL<space><CSV of Label Indices>

许可证

数据集遵循Creative Commons Attribution 3.0 Unported (CC BY 3.0)许可。
允许复制、分发、传输、改编及商业使用。
必须按照作者或许可方指定的方式归因。

搜集汇总

数据集介绍

构建方式

YouTube Sports-1M数据集通过自动化的方式构建，利用YouTube Topics API对1,133,158个YouTube视频进行标注，涵盖487种体育类别。该数据集的标注过程依赖于YouTube的公开API，通过搜索特定主题来获取视频，并将这些视频与相应的体育标签关联。为了节省存储空间，所有文本文件均经过gzip压缩，用户需解压缩后使用。数据集包括训练和测试分区，以及用于10折交叉验证的分区，确保了数据集的多样性和实用性。

特点

YouTube Sports-1M数据集的主要特点在于其大规模和多样性。该数据集包含了超过百万个视频，涵盖了487种不同的体育类别，为视频分类和体育识别任务提供了丰富的资源。此外，数据集的构建方式确保了标签的准确性和一致性，通过自动化标注减少了人为误差。数据集还提供了多种分区方式，包括训练、测试和交叉验证分区，便于用户进行不同类型的实验和模型训练。

使用方法

使用YouTube Sports-1M数据集时，用户首先需要解压缩提供的gzip文件，以获取原始的训练和测试分区文件。数据集的格式为每行一个视频URL，后跟以逗号分隔的标签索引。用户可以根据需要选择不同的分区进行模型训练和测试，例如使用训练分区进行模型训练，测试分区进行性能评估。此外，数据集还提供了10折交叉验证的分区，用户可以利用这些分区进行更全面的模型验证。为了确保数据的合法使用，用户需遵守Creative Commons Attribution 3.0许可协议，正确引用数据集的来源。

背景与挑战

背景概述

YouTube Sports-1M数据集是由Andrej Karpathy等研究人员于2014年创建，旨在推动大规模视频分类技术的发展。该数据集包含了1,133,158个来自YouTube的视频，这些视频被自动标注为487种不同的体育类别。通过利用YouTube Topics API，研究人员能够高效地获取并标注这些视频，从而为视频分类领域的研究提供了丰富的资源。该数据集的发布不仅为深度学习在视频分类中的应用提供了宝贵的数据支持，还推动了相关领域的技术进步，尤其是在卷积神经网络（CNN）的应用方面。

当前挑战

YouTube Sports-1M数据集在构建过程中面临了多个挑战。首先，视频内容的多样性和复杂性使得自动标注过程极具挑战性，如何确保标注的准确性和一致性是一个重要问题。其次，数据集的规模庞大，处理和存储这些视频数据需要高效的计算资源和存储解决方案。此外，由于视频可能包含多个标签，如何在训练和测试过程中合理划分数据集，以确保模型的泛化能力，也是一个需要解决的难题。最后，如何有效地利用这些标注数据进行模型训练，以提升视频分类的准确性和效率，仍然是该领域的一个重要研究方向。

常用场景

经典使用场景

YouTube Sports-1M数据集因其庞大的视频数量和详尽的体育标签注释，成为视频分类和识别领域的经典资源。研究者常利用该数据集训练卷积神经网络（CNN），以实现对大规模体育视频的自动分类。通过分析视频内容与标签的关联，模型能够高效地识别和分类不同类型的体育活动，为视频内容的自动化处理提供了坚实基础。

衍生相关工作

基于YouTube Sports-1M数据集，研究者们开发了多种视频分类和识别模型，推动了深度学习在视频分析领域的发展。例如，Karpathy等人提出的卷积神经网络模型，通过该数据集的训练，显著提升了视频分类的准确性。此外，该数据集还激发了多标签分类、视频内容理解等相关研究，为视频分析领域的进一步探索奠定了基础。

数据集最近研究