EgoCVR
收藏EgoCVR 数据集概述
数据集简介
EgoCVR 是一个用于细粒度组合视频检索的评估基准,包含 2,295 个查询,专注于高质量的时间视频理解。数据集的视频和相应注释从 Ego4D FHO 任务 收集。
数据集结构
注释
注释文件存储在 annotation/egocvr/egocvr_annotations.csv,每行对应一个查询,包含以下列:
video_clip_id: 查询视频剪辑的唯一标识符。target_clip_ids: 目标视频剪辑的唯一标识符。video_clip_narration: 查询视频剪辑的叙述。target_clip_narration: 目标视频剪辑的叙述。instruction: 查询的视频修改指令。modified_captions: 用于检索目标视频剪辑的修改后字幕。
评估
EgoCVR 支持两种评估设置:
global: 标准组合图像/视频检索设置,画廊包含一个长视频列表。local: 本地搜索通过限制画廊仅包含来自同一视频序列的剪辑来模拟在长视频中搜索特定时刻的场景。
画廊信息存储在 annotation/egocvr/egocvr_annotations_gallery.csv,除了查询注释的列外,还包含以下列:
global_idx: 全局评估的视频画廊索引。local_idx: 本地评估的视频画廊索引。
下载信息
- 画廊信息下载链接:下载
- 视频剪辑下载链接:
- 预计算模型嵌入下载链接:
- 模型权重下载链接:
评估命令
bash
全局设置评估
python egocvr_retrieval.py --evaluation global
本地设置评估
python egocvr_retrieval.py --evaluation local
评估参数
--model: 评估的模型,可选值包括egovlpv2,languagebind,blip,clip。--modalities: 使用的查询模态,可选值包括visual,text,visual-text。--text: 使用的查询文本源,可选值包括instruction,tfcvr,gt。
示例
bash
CLIP 全局评估
python egocvr_retrieval.py --evaluation global --model clip --modalities visual-text --text instruction
BLIP 全局评估
python egocvr_retrieval.py --evaluation global --model blip --modalities visual-text --text instruction
LanguageBind 全局评估
python egocvr_retrieval.py --evaluation global --model languagebind --modalities visual-text --text instruction
BLIP_CoVR 全局评估
python egocvr_retrieval.py --evaluation global --model blip --modalities visual-text --text instruction --fusion crossattn --finetuned




