five

iVQA (Instructional Video Question Answering)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/iVQA
下载链接
链接失效反馈
官方服务:
资源简介:
最近的视觉问答方法依赖于大规模的注释数据集。然而,手动注释视频的问题和答案是乏味的、昂贵的并且阻碍了可扩展性。在这项工作中,我们建议避免手动注释,并利用自动跨模态监督生成用于视频问答的大规模训练数据集。我们利用在文本数据上训练的问题生成转换器,并使用它从转录的视频旁白中生成问答对。给定旁白视频,然后我们自动生成包含 69M 视频-问答三元组的 HowToVQA69M 数据集。为了处理该数据集中不同答案的开放词汇,我们提出了一种基于视频问题多模态变换器和答案变换器之间的对比损失的训练过程。我们引入了零镜头 VideoQA 任务并展示了出色的结果,特别是对于罕见的答案。此外,我们展示了我们的方法在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 上显着优于现有技术。最后,为了进行详细评估,我们介绍了 iVQA,这是一个新的 VideoQA 数据集,具有减少的语言偏差和高质量的冗余手动注释。
提供机构:
OpenDataLab
创建时间:
2022-09-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作