five

EgoCVR

收藏
arXiv2024-07-24 更新2024-07-25 收录
下载链接:
https://github.com/ExplainableML/EgoCVR
下载链接
链接失效反馈
官方服务:
资源简介:
EgoCVR数据集由图宾根人工智能中心和慕尼黑亥姆霍兹中心等机构创建,专注于细粒度的组合视频检索任务。该数据集包含2,295个视频查询,每个查询都要求对视频内容进行微妙的修改。数据集的创建过程涉及从Ego4D数据集中手动筛选和配对视频,确保视频对之间的主要差异是受控的文本修改。EgoCVR数据集主要用于评估视觉-语言模型在视频理解和检索方面的能力,特别是在处理时间序列和动作变化方面的能力。

The EgoCVR dataset was created by institutions including the Tübingen AI Center and the Helmholtz Centre Munich, focusing on the fine-grained compositional video retrieval task. It contains 2,295 video queries, each requiring subtle modifications to the video content. The dataset creation process involves manually screening and pairing videos from the Ego4D dataset, ensuring that the primary difference between each pair of videos is a controlled textual modification. The EgoCVR dataset is primarily used to evaluate the capabilities of vision-language models in video understanding and retrieval, particularly their ability to handle temporal sequences and action variations.
提供机构:
图宾根人工智能中心,蒂宾根大学,慕尼黑亥姆霍兹中心,慕尼黑工业大学
创建时间:
2024-07-24
原始信息汇总

EgoCVR 数据集概述

数据集简介

EgoCVR 是一个用于细粒度组合视频检索的评估基准,包含 2,295 个查询,专注于高质量的时间视频理解。数据集的视频和相应注释从 Ego4D FHO 任务 收集。

数据集结构

注释

注释文件存储在 annotation/egocvr/egocvr_annotations.csv,每行对应一个查询,包含以下列:

  • video_clip_id: 查询视频剪辑的唯一标识符。
  • target_clip_ids: 目标视频剪辑的唯一标识符。
  • video_clip_narration: 查询视频剪辑的叙述。
  • target_clip_narration: 目标视频剪辑的叙述。
  • instruction: 查询的视频修改指令。
  • modified_captions: 用于检索目标视频剪辑的修改后字幕。

评估

EgoCVR 支持两种评估设置:

  • global: 标准组合图像/视频检索设置,画廊包含一个长视频列表。
  • local: 本地搜索通过限制画廊仅包含来自同一视频序列的剪辑来模拟在长视频中搜索特定时刻的场景。

画廊信息存储在 annotation/egocvr/egocvr_annotations_gallery.csv,除了查询注释的列外,还包含以下列:

  • global_idx: 全局评估的视频画廊索引。
  • local_idx: 本地评估的视频画廊索引。

下载信息

  • 画廊信息下载链接:下载
  • 视频剪辑下载链接:
    • 全尺寸视频剪辑:下载
    • 缩放视频剪辑:下载
  • 预计算模型嵌入下载链接:
  • 模型权重下载链接:
    • EgoVLPv2 模型权重:下载
    • BLIP<sub>CoVR</sub> 模型权重:下载

评估命令

bash

全局设置评估

python egocvr_retrieval.py --evaluation global

本地设置评估

python egocvr_retrieval.py --evaluation local

评估参数

  • --model: 评估的模型,可选值包括 egovlpv2, languagebind, blip, clip
  • --modalities: 使用的查询模态,可选值包括 visual, text, visual-text
  • --text: 使用的查询文本源,可选值包括 instruction, tfcvr, gt

示例

bash

CLIP 全局评估

python egocvr_retrieval.py --evaluation global --model clip --modalities visual-text --text instruction

BLIP 全局评估

python egocvr_retrieval.py --evaluation global --model blip --modalities visual-text --text instruction

LanguageBind 全局评估

python egocvr_retrieval.py --evaluation global --model languagebind --modalities visual-text --text instruction

BLIP_CoVR 全局评估

python egocvr_retrieval.py --evaluation global --model blip --modalities visual-text --text instruction --fusion crossattn --finetuned

搜集汇总
数据集介绍
main_image_url
构建方式
EgoCVR数据集通过精心策划和高质量的手动标注构建,包含2,295个查询,源自Ego4D数据集。该数据集特别关注高精度的时序视频理解,通过从同一长视频中提取查询和目标片段,并结合文本修饰符,要求模型识别出视频中细微的动作变化。这种构建方式确保了模型需要具备强大的视频理解能力才能在该评估设置中取得优异表现。
特点
EgoCVR数据集的一个显著特点是其对时序事件的高度关注,相较于现有的WebVid-CoVR基准,EgoCVR更侧重于动作相关的修改,而非仅限于对象中心的修改。数据集中的文本修饰指令设计简洁,仅包含实现查询视频到目标视频转换所需的最小语义差异,确保了指令的精确性和相关性。此外,数据集还包含了视觉干扰片段,以确保检索任务的复杂性和挑战性。
使用方法
EgoCVR数据集适用于评估视觉语言模型在细粒度组合视频检索任务中的表现。使用该数据集时,研究者可以采用多种视觉语言模型,如CLIP、BLIP、EgoVLPv2和LanguageBind,通过调整这些模型以适应组合视频检索任务。特别地,提出的TFR-CVR方法结合了视觉过滤和文本重排序策略,显著提升了检索性能。研究者可以通过该数据集评估和改进现有模型的时序理解能力,推动视频检索技术的发展。
背景与挑战
背景概述
EgoCVR(Egocentric Composed Video Retrieval)数据集由Tübingen AI Center和Helmholtz Munich的MCML团队于2024年创建,旨在解决细粒度组合视频检索的挑战。该数据集包含2,295个查询,专注于高质量的时间视频理解。EgoCVR的创建标志着在视频检索领域迈出了重要一步,特别是在需要理解视频和文本输入并将其组合以高效检索所需视频的复杂任务中。该数据集的引入对视觉语言模型的发展产生了深远影响,特别是在视频和文本交叉领域。
当前挑战
EgoCVR数据集面临的挑战主要集中在两个方面:一是构建过程中需要获取大规模的训练数据集并收集高质量的评估基准;二是现有组合视频检索框架在处理此任务时未能达到必要的高质量时间视频理解。具体挑战包括:1) 需要理解视觉和文本输入并将其组合以检索所需视频;2) 现有模型在处理细微动作或行为时表现不佳;3) 自动数据集构建可能导致评估集质量受限,特别是在不需要时间理解的情况下。这些挑战要求开发新的方法和模型,以提升组合视频检索的准确性和效率。
常用场景
经典使用场景
EgoCVR 数据集的经典使用场景在于细粒度的组合视频检索任务。该数据集通过提供大量的以自我为中心的视频数据,结合文本描述,旨在帮助模型理解视频内容并根据文本指令进行精确的视频检索。例如,用户可以提供一个视频片段和一个文本描述,要求模型检索出符合描述的视频片段,如‘将锯子换成扳手’。这种任务要求模型具备高度的时序视频理解能力,以准确捕捉视频中的细微变化。
解决学术问题
EgoCVR 数据集解决了现有组合视频检索框架在时序视频理解方面的不足。通过引入大规模的以自我为中心的视频数据集,EgoCVR 提供了一个高质量的评估基准,使得研究者能够开发和验证新的模型,以实现更精确的时序视频理解和检索。这不仅推动了视频检索技术的发展,也为多模态学习提供了新的研究方向。
衍生相关工作
EgoCVR 数据集的发布催生了一系列相关研究工作,特别是在视频和语言模型的结合方面。例如,研究者们提出了基于 EgoCVR 的训练无方法,如 TFR-CVR,通过结合视觉和文本信息,显著提高了组合视频检索的性能。此外,EgoCVR 还激发了对多模态学习模型的进一步研究,推动了视频理解、语言生成和跨模态检索等领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作