YouTube Sports-1M Dataset

github2020-04-26 更新2024-05-31 收录

下载链接：

https://github.com/zijunwei/sports-1m-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了1,133,158个YouTube视频的链接，这些视频被标注了487个体育标签。这些标注是通过YouTube Topics自动生成的，该服务有一个公开的API。数据集包括训练和测试分区，以及用于10折交叉验证的分区。

We provide links to 1,133,158 YouTube videos annotated with 487 sports-related tags. These annotations are automatically generated via YouTube Topics, a service with a public API. The dataset includes training, test splits, and splits for 10-fold cross-validation.

创建时间：

2017-01-18

原始信息汇总

YouTube Sports-1M 数据集

数据集概述

视频数量: 1,133,158 个 YouTube 视频
标签数量: 487 个体育标签
标签生成方式: 自动生成，使用 YouTube Topics API

文件说明

original/test_partition.txt: 包含测试分区
original/train_partition.txt: 包含训练分区
labels.txt: 包含训练/测试分区的人类可读标签
sports_mids.txt: 包含用于从 YouTube 检索视频的机器 ID
cross-validation/all_urls.txt: 所有 URL 和标签捆绑在一起
cross-validation/sportsX_train.txt & cross-validation/sportsX_test.txt: 10 折交叉验证分区

文件格式

训练/测试分区格式: URL<空格><CSV 格式的标签索引>
示例: https://www.youtube.com/watch?v=UDqivjS-lpI 168,169

标签说明

标签索引: 从 0 到 486
示例: 0 对应 "boomerang"，486 对应 "model aircraft"

许可证

类型: Creative Commons License (CC BY 3.0)
权限:
- 分享: 复制、分发和传输作品
- 混音: 改编作品
- 商业使用: 商业使用作品
条件:
- 署名: 必须以指定方式署名作者或许可人

搜集汇总

数据集介绍

构建方式

YouTube Sports-1M Dataset 是通过链接至 1,133,158 个 YouTube 视频并自动标注 487 种运动标签的方式构建而成。其自动标注过程依赖于 YouTube Topics API，该 API 可通过指定链接进行访问。数据集文本文件采用 gzip 压缩格式存储，以节省空间，用户可通过 gzip 解压缩工具获取原始文件。

特点

该数据集的主要特点在于其规模宏大，包含的视频及标签数量丰富，涵盖多种体育运动类型。它提供了训练和测试的分割文件，以及可读标签文件和用于通过 YouTube API 获取视频的机器 ID 文件。此外，数据集还提供了用于 10 折交叉验证的额外文件，以及方便用户进行数据划分的完整 URL 和标签捆绑文件。

使用方法

用户可通过解压下载数据集后，直接读取文本文件中的 URL 和标签索引来使用该数据集。对于需要进行交叉验证的用户，可以使用提供的 10 折交叉验证文件。此外，用户可通过 YouTube Topics API，利用数据集中的机器 ID 来直接检索特定类别的视频。在使用数据集时，用户需遵守 Creative Commons License，确保在使用时给予适当的归属。

背景与挑战

背景概述

YouTube Sports-1M Dataset是一个大规模的视频数据集，由Andrej Karpathy等研究人员于2014年创建，隶属于斯坦福大学的研究项目。该数据集包含了1,133,158个YouTube视频，这些视频被自动标注了487个体育类标签，旨在推动大规模视频分类领域的研究。该数据集的构建利用了YouTube Topics的公共API进行自动化标注，其研究成果在计算机视觉和机器学习领域具有重要的影响力，为后续的深度学习和视频内容理解研究奠定了基础。

当前挑战

在构建YouTube Sports-1M Dataset的过程中，研究人员面临着多个挑战。首先，如何高效地从YouTube上获取和标注大量视频数据是一个重大挑战。其次，由于视频可能包含多个标签，因此在数据集划分时确保标签的合理分布和交叉验证的准确性也是一大难题。此外，数据集的多标签特性使得在视频分类任务中如何准确识别和分类视频内容成为一个具有挑战性的问题。

常用场景

经典使用场景

YouTube Sports-1M Dataset作为深度学习领域中的大规模视频分类数据集，其经典的使用场景主要集中于学术研究中对视频内容进行自动标注和分类。通过该数据集，研究者能够训练模型以识别并标注出视频中的体育活动类别，从而推动大规模视频内容分析技术的发展。

实际应用

在实际应用中，YouTube Sports-1M Dataset的应用场景广泛，包括但不限于体育视频内容的管理、推荐系统的优化以及个性化视频剪辑的制作。该数据集使得相关应用能够更加准确地识别用户的观看偏好，从而提升用户体验。

衍生相关工作

基于YouTube Sports-1M Dataset，衍生出了一系列经典工作，如Karpathy等人于2014年在CVPR上发表的《Large-scale Video Classification with Convolutional Neural Networks》，该研究利用卷积神经网络在视频分类上取得了突破性进展，为后续的深度学习在视频理解领域的应用奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集