five

YouTube Sports-1M Dataset|体育视频分类数据集|自动化标注数据集

收藏
github2020-04-26 更新2024-05-31 收录
体育视频分类
自动化标注
下载链接:
https://github.com/zijunwei/sports-1m-dataset
下载链接
链接失效反馈
资源简介:
我们提供了1,133,158个YouTube视频的链接,这些视频被标注了487个体育标签。这些标注是通过YouTube Topics自动生成的,该服务有一个公开的API。数据集包括训练和测试分区,以及用于10折交叉验证的分区。
创建时间:
2017-01-18
原始信息汇总

YouTube Sports-1M 数据集

数据集概述

  • 视频数量: 1,133,158 个 YouTube 视频
  • 标签数量: 487 个体育标签
  • 标签生成方式: 自动生成,使用 YouTube Topics API

文件说明

  • original/test_partition.txt: 包含测试分区
  • original/train_partition.txt: 包含训练分区
  • labels.txt: 包含训练/测试分区的人类可读标签
  • sports_mids.txt: 包含用于从 YouTube 检索视频的机器 ID
  • cross-validation/all_urls.txt: 所有 URL 和标签捆绑在一起
  • cross-validation/sportsX_train.txt & cross-validation/sportsX_test.txt: 10 折交叉验证分区

文件格式

  • 训练/测试分区格式: URL<空格><CSV 格式的标签索引>
  • 示例: https://www.youtube.com/watch?v=UDqivjS-lpI 168,169

标签说明

  • 标签索引: 从 0 到 486
  • 示例: 0 对应 "boomerang",486 对应 "model aircraft"

许可证

  • 类型: Creative Commons License (CC BY 3.0)
  • 权限:
    • 分享: 复制、分发和传输作品
    • 混音: 改编作品
    • 商业使用: 商业使用作品
  • 条件:
    • 署名: 必须以指定方式署名作者或许可人
AI搜集汇总
数据集介绍
main_image_url
构建方式
YouTube Sports-1M Dataset 是通过链接至 1,133,158 个 YouTube 视频并自动标注 487 种运动标签的方式构建而成。其自动标注过程依赖于 YouTube Topics API,该 API 可通过指定链接进行访问。数据集文本文件采用 gzip 压缩格式存储,以节省空间,用户可通过 gzip 解压缩工具获取原始文件。
特点
该数据集的主要特点在于其规模宏大,包含的视频及标签数量丰富,涵盖多种体育运动类型。它提供了训练和测试的分割文件,以及可读标签文件和用于通过 YouTube API 获取视频的机器 ID 文件。此外,数据集还提供了用于 10 折交叉验证的额外文件,以及方便用户进行数据划分的完整 URL 和标签捆绑文件。
使用方法
用户可通过解压下载数据集后,直接读取文本文件中的 URL 和标签索引来使用该数据集。对于需要进行交叉验证的用户,可以使用提供的 10 折交叉验证文件。此外,用户可通过 YouTube Topics API,利用数据集中的机器 ID 来直接检索特定类别的视频。在使用数据集时,用户需遵守 Creative Commons License,确保在使用时给予适当的归属。
背景与挑战
背景概述
YouTube Sports-1M Dataset是一个大规模的视频数据集,由Andrej Karpathy等研究人员于2014年创建,隶属于斯坦福大学的研究项目。该数据集包含了1,133,158个YouTube视频,这些视频被自动标注了487个体育类标签,旨在推动大规模视频分类领域的研究。该数据集的构建利用了YouTube Topics的公共API进行自动化标注,其研究成果在计算机视觉和机器学习领域具有重要的影响力,为后续的深度学习和视频内容理解研究奠定了基础。
当前挑战
在构建YouTube Sports-1M Dataset的过程中,研究人员面临着多个挑战。首先,如何高效地从YouTube上获取和标注大量视频数据是一个重大挑战。其次,由于视频可能包含多个标签,因此在数据集划分时确保标签的合理分布和交叉验证的准确性也是一大难题。此外,数据集的多标签特性使得在视频分类任务中如何准确识别和分类视频内容成为一个具有挑战性的问题。
常用场景
经典使用场景
YouTube Sports-1M Dataset作为深度学习领域中的大规模视频分类数据集,其经典的使用场景主要集中于学术研究中对视频内容进行自动标注和分类。通过该数据集,研究者能够训练模型以识别并标注出视频中的体育活动类别,从而推动大规模视频内容分析技术的发展。
实际应用
在实际应用中,YouTube Sports-1M Dataset的应用场景广泛,包括但不限于体育视频内容的管理、推荐系统的优化以及个性化视频剪辑的制作。该数据集使得相关应用能够更加准确地识别用户的观看偏好,从而提升用户体验。
衍生相关工作
基于YouTube Sports-1M Dataset,衍生出了一系列经典工作,如Karpathy等人于2014年在CVPR上发表的《Large-scale Video Classification with Convolutional Neural Networks》,该研究利用卷积神经网络在视频分类上取得了突破性进展,为后续的深度学习在视频理解领域的应用奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录