YouTube Sports-1M Dataset|体育视频分类数据集|自动化标注数据集
收藏YouTube Sports-1M 数据集
数据集概述
- 视频数量: 1,133,158 个 YouTube 视频
- 标签数量: 487 个体育标签
- 标签生成方式: 自动生成,使用 YouTube Topics API
文件说明
- original/test_partition.txt: 包含测试分区
- original/train_partition.txt: 包含训练分区
- labels.txt: 包含训练/测试分区的人类可读标签
- sports_mids.txt: 包含用于从 YouTube 检索视频的机器 ID
- cross-validation/all_urls.txt: 所有 URL 和标签捆绑在一起
- cross-validation/sportsX_train.txt & cross-validation/sportsX_test.txt: 10 折交叉验证分区
文件格式
- 训练/测试分区格式: URL<空格><CSV 格式的标签索引>
- 示例:
https://www.youtube.com/watch?v=UDqivjS-lpI 168,169
标签说明
- 标签索引: 从 0 到 486
- 示例: 0 对应 "boomerang",486 对应 "model aircraft"
许可证
- 类型: Creative Commons License (CC BY 3.0)
- 权限:
- 分享: 复制、分发和传输作品
- 混音: 改编作品
- 商业使用: 商业使用作品
- 条件:
- 署名: 必须以指定方式署名作者或许可人

ROBEL
ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。
arXiv 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
Interaction Dataset
Interaction Dataset是一个用于处理和可视化交通场景的数据集,支持轨迹预测挑战,包括三个不同的预测模型训练和测试轨道。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录