five

HowTo100M

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/HowTo100M
下载链接
链接失效反馈
官方服务:
资源简介:
本文的目的是建立一个时间对齐网络,该网络吸收长期视频序列和相关的文本句子,以便 :( 1) 确定句子是否与视频对齐; (2) 如果可以对齐,则确定其对齐。面临的挑战是从大规模数据集 (例如HowTo100M) 训练此类网络,其中相关的文本句子具有明显的噪声,并且仅在相关时才弱对齐。 除了提出对齐网络之外,我们还做出了四个贡献 :( i) 我们描述了一种新颖的联合训练方法,尽管噪音很大,但可以在不使用手动注释的情况下对原始教学视频进行降噪和训练; (ii) 基准对齐性能,我们手动策划了HowTo100M的10小时子集,总共80个视频,并带有稀疏的时间描述。我们提出的模型,在HowTo100M上训练,在这个对齐数据集上的强基线 (CLIP,MIL-NCE) 的显著优势; (iii) 我们将训练好的模型应用于多个下游视频理解任务,并实现最先进的结果,包括YouCook2上的文本视频检索,以及早餐动作上的弱监督视频动作分割; (iv) 我们使用自动对齐的HowTo100M注释进行骨干模型的端到端微调,并在下游动作识别任务上获得了改进的性能。
提供机构:
OpenDataLab
创建时间:
2023-02-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作