HowTo100M|视频理解数据集|文本视频对齐数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

视频理解

文本视频对齐

下载链接：

https://opendatalab.org.cn/OpenDataLab/HowTo100M

下载链接

链接失效反馈

资源简介：

本文的目的是建立一个时间对齐网络，该网络吸收长期视频序列和相关的文本句子，以便 :( 1) 确定句子是否与视频对齐; (2) 如果可以对齐，则确定其对齐。面临的挑战是从大规模数据集 (例如HowTo100M) 训练此类网络，其中相关的文本句子具有明显的噪声，并且仅在相关时才弱对齐。除了提出对齐网络之外，我们还做出了四个贡献 :( i) 我们描述了一种新颖的联合训练方法，尽管噪音很大，但可以在不使用手动注释的情况下对原始教学视频进行降噪和训练; (ii) 基准对齐性能，我们手动策划了HowTo100M的10小时子集，总共80个视频，并带有稀疏的时间描述。我们提出的模型，在HowTo100M上训练，在这个对齐数据集上的强基线 (CLIP，MIL-NCE) 的显著优势; (iii) 我们将训练好的模型应用于多个下游视频理解任务，并实现最先进的结果，包括YouCook2上的文本视频检索，以及早餐动作上的弱监督视频动作分割; (iv) 我们使用自动对齐的HowTo100M注释进行骨干模型的端到端微调，并在下游动作识别任务上获得了改进的性能。

提供机构：

OpenDataLab

创建时间：

2023-02-13

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录

CCPD

CCPD是一个大型的、多样化的、经过仔细标注的中国城市车牌开源数据集。CCPD数据集主要分为CCPD2019数据集和CCPD2020(CCPD-Green)数据集。CCPD2019数据集车牌类型仅有普通车牌(蓝色车牌)，CCPD2020数据集车牌类型仅有新能源车牌(绿色车牌)。在CCPD数据集中，每张图片仅包含一张车牌，车牌的车牌省份主要为皖。CCPD中的每幅图像都包含大量的标注信息，但是CCPD数据集没有专门的标注文件，每张图像的文件名就是该图像对应的数据标注。

github 收录