YouTube Sports-1M Dataset|体育视频分类数据集|自动化标注数据集

github2020-04-26 更新2024-05-31 收录

体育视频分类

自动化标注

下载链接：

https://github.com/zijunwei/sports-1m-dataset

下载链接

链接失效反馈

资源简介：

我们提供了1,133,158个YouTube视频的链接，这些视频被标注了487个体育标签。这些标注是通过YouTube Topics自动生成的，该服务有一个公开的API。数据集包括训练和测试分区，以及用于10折交叉验证的分区。

创建时间：

2017-01-18

原始信息汇总

YouTube Sports-1M 数据集

数据集概述

视频数量: 1,133,158 个 YouTube 视频
标签数量: 487 个体育标签
标签生成方式: 自动生成，使用 YouTube Topics API

文件说明

original/test_partition.txt: 包含测试分区
original/train_partition.txt: 包含训练分区
labels.txt: 包含训练/测试分区的人类可读标签
sports_mids.txt: 包含用于从 YouTube 检索视频的机器 ID
cross-validation/all_urls.txt: 所有 URL 和标签捆绑在一起
cross-validation/sportsX_train.txt & cross-validation/sportsX_test.txt: 10 折交叉验证分区

文件格式

训练/测试分区格式: URL<空格><CSV 格式的标签索引>
示例: https://www.youtube.com/watch?v=UDqivjS-lpI 168,169

标签说明

标签索引: 从 0 到 486
示例: 0 对应 "boomerang"，486 对应 "model aircraft"

许可证

类型: Creative Commons License (CC BY 3.0)
权限:
- 分享: 复制、分发和传输作品
- 混音: 改编作品
- 商业使用: 商业使用作品
条件:
- 署名: 必须以指定方式署名作者或许可人

AI搜集汇总

数据集介绍

构建方式

YouTube Sports-1M Dataset 是通过链接至 1,133,158 个 YouTube 视频并自动标注 487 种运动标签的方式构建而成。其自动标注过程依赖于 YouTube Topics API，该 API 可通过指定链接进行访问。数据集文本文件采用 gzip 压缩格式存储，以节省空间，用户可通过 gzip 解压缩工具获取原始文件。

特点

该数据集的主要特点在于其规模宏大，包含的视频及标签数量丰富，涵盖多种体育运动类型。它提供了训练和测试的分割文件，以及可读标签文件和用于通过 YouTube API 获取视频的机器 ID 文件。此外，数据集还提供了用于 10 折交叉验证的额外文件，以及方便用户进行数据划分的完整 URL 和标签捆绑文件。

使用方法

用户可通过解压下载数据集后，直接读取文本文件中的 URL 和标签索引来使用该数据集。对于需要进行交叉验证的用户，可以使用提供的 10 折交叉验证文件。此外，用户可通过 YouTube Topics API，利用数据集中的机器 ID 来直接检索特定类别的视频。在使用数据集时，用户需遵守 Creative Commons License，确保在使用时给予适当的归属。

背景与挑战

背景概述

YouTube Sports-1M Dataset是一个大规模的视频数据集，由Andrej Karpathy等研究人员于2014年创建，隶属于斯坦福大学的研究项目。该数据集包含了1,133,158个YouTube视频，这些视频被自动标注了487个体育类标签，旨在推动大规模视频分类领域的研究。该数据集的构建利用了YouTube Topics的公共API进行自动化标注，其研究成果在计算机视觉和机器学习领域具有重要的影响力，为后续的深度学习和视频内容理解研究奠定了基础。

当前挑战

在构建YouTube Sports-1M Dataset的过程中，研究人员面临着多个挑战。首先，如何高效地从YouTube上获取和标注大量视频数据是一个重大挑战。其次，由于视频可能包含多个标签，因此在数据集划分时确保标签的合理分布和交叉验证的准确性也是一大难题。此外，数据集的多标签特性使得在视频分类任务中如何准确识别和分类视频内容成为一个具有挑战性的问题。

常用场景

经典使用场景

YouTube Sports-1M Dataset作为深度学习领域中的大规模视频分类数据集，其经典的使用场景主要集中于学术研究中对视频内容进行自动标注和分类。通过该数据集，研究者能够训练模型以识别并标注出视频中的体育活动类别，从而推动大规模视频内容分析技术的发展。

实际应用

在实际应用中，YouTube Sports-1M Dataset的应用场景广泛，包括但不限于体育视频内容的管理、推荐系统的优化以及个性化视频剪辑的制作。该数据集使得相关应用能够更加准确地识别用户的观看偏好，从而提升用户体验。

衍生相关工作

基于YouTube Sports-1M Dataset，衍生出了一系列经典工作，如Karpathy等人于2014年在CVPR上发表的《Large-scale Video Classification with Convolutional Neural Networks》，该研究利用卷积神经网络在视频分类上取得了突破性进展，为后续的深度学习在视频理解领域的应用奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台，专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发，包含两个机器人：D'Claw，一个三指手机器人，用于促进精细操作任务的学习；D'Kitty，一个四足机器人，用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固，能够承受从零开始的硬件强化学习，目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务，这些任务具有密集和稀疏的任务目标，并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问，旨在解决强化学习在真实机器人上的应用问题，特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

Interaction Dataset

Interaction Dataset是一个用于处理和可视化交通场景的数据集，支持轨迹预测挑战，包括三个不同的预测模型训练和测试轨道。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录