Violin (VIdeO-and-Language INference)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Violin
下载链接
链接失效反馈官方服务:
资源简介:
视频和语言推理是对视频和文本进行联合多模态理解的任务。给定一个以对齐字幕为前提的视频剪辑,再加上基于视频内容的自然语言假设,模型需要推断该假设是否与给定的视频剪辑相矛盾。 Violin 数据集是该任务的数据集,包含来自 15,887 个视频剪辑的 95,322 个视频-假设对,跨越超过 582 小时的视频。这些视频剪辑包含丰富的内容,具有不同的时间动态、事件变化和人际互动,从两个来源收集:(i) 流行的电视节目,以及 (ii) 来自 YouTube 频道的电影剪辑。
提供机构:
OpenDataLab
创建时间:
2022-06-07



