five

EgoCVR|视频检索数据集|视觉-语言模型数据集

收藏
arXiv2024-07-24 更新2024-07-25 收录
视频检索
视觉-语言模型
下载链接:
https://github.com/ExplainableML/EgoCVR
下载链接
链接失效反馈
资源简介:
EgoCVR数据集由图宾根人工智能中心和慕尼黑亥姆霍兹中心等机构创建,专注于细粒度的组合视频检索任务。该数据集包含2,295个视频查询,每个查询都要求对视频内容进行微妙的修改。数据集的创建过程涉及从Ego4D数据集中手动筛选和配对视频,确保视频对之间的主要差异是受控的文本修改。EgoCVR数据集主要用于评估视觉-语言模型在视频理解和检索方面的能力,特别是在处理时间序列和动作变化方面的能力。
提供机构:
图宾根人工智能中心,蒂宾根大学,慕尼黑亥姆霍兹中心,慕尼黑工业大学
创建时间:
2024-07-24
原始信息汇总

EgoCVR 数据集概述

数据集简介

EgoCVR 是一个用于细粒度组合视频检索的评估基准,包含 2,295 个查询,专注于高质量的时间视频理解。数据集的视频和相应注释从 Ego4D FHO 任务 收集。

数据集结构

注释

注释文件存储在 annotation/egocvr/egocvr_annotations.csv,每行对应一个查询,包含以下列:

  • video_clip_id: 查询视频剪辑的唯一标识符。
  • target_clip_ids: 目标视频剪辑的唯一标识符。
  • video_clip_narration: 查询视频剪辑的叙述。
  • target_clip_narration: 目标视频剪辑的叙述。
  • instruction: 查询的视频修改指令。
  • modified_captions: 用于检索目标视频剪辑的修改后字幕。

评估

EgoCVR 支持两种评估设置:

  • global: 标准组合图像/视频检索设置,画廊包含一个长视频列表。
  • local: 本地搜索通过限制画廊仅包含来自同一视频序列的剪辑来模拟在长视频中搜索特定时刻的场景。

画廊信息存储在 annotation/egocvr/egocvr_annotations_gallery.csv,除了查询注释的列外,还包含以下列:

  • global_idx: 全局评估的视频画廊索引。
  • local_idx: 本地评估的视频画廊索引。

下载信息

  • 画廊信息下载链接:下载
  • 视频剪辑下载链接:
    • 全尺寸视频剪辑:下载
    • 缩放视频剪辑:下载
  • 预计算模型嵌入下载链接:
  • 模型权重下载链接:
    • EgoVLPv2 模型权重:下载
    • BLIP<sub>CoVR</sub> 模型权重:下载

评估命令

bash

全局设置评估

python egocvr_retrieval.py --evaluation global

本地设置评估

python egocvr_retrieval.py --evaluation local

评估参数

  • --model: 评估的模型,可选值包括 egovlpv2, languagebind, blip, clip
  • --modalities: 使用的查询模态,可选值包括 visual, text, visual-text
  • --text: 使用的查询文本源,可选值包括 instruction, tfcvr, gt

示例

bash

CLIP 全局评估

python egocvr_retrieval.py --evaluation global --model clip --modalities visual-text --text instruction

BLIP 全局评估

python egocvr_retrieval.py --evaluation global --model blip --modalities visual-text --text instruction

LanguageBind 全局评估

python egocvr_retrieval.py --evaluation global --model languagebind --modalities visual-text --text instruction

BLIP_CoVR 全局评估

python egocvr_retrieval.py --evaluation global --model blip --modalities visual-text --text instruction --fusion crossattn --finetuned

AI搜集汇总
数据集介绍
main_image_url
构建方式
EgoCVR数据集通过精心策划和高质量的手动标注构建,包含2,295个查询,源自Ego4D数据集。该数据集特别关注高精度的时序视频理解,通过从同一长视频中提取查询和目标片段,并结合文本修饰符,要求模型识别出视频中细微的动作变化。这种构建方式确保了模型需要具备强大的视频理解能力才能在该评估设置中取得优异表现。
特点
EgoCVR数据集的一个显著特点是其对时序事件的高度关注,相较于现有的WebVid-CoVR基准,EgoCVR更侧重于动作相关的修改,而非仅限于对象中心的修改。数据集中的文本修饰指令设计简洁,仅包含实现查询视频到目标视频转换所需的最小语义差异,确保了指令的精确性和相关性。此外,数据集还包含了视觉干扰片段,以确保检索任务的复杂性和挑战性。
使用方法
EgoCVR数据集适用于评估视觉语言模型在细粒度组合视频检索任务中的表现。使用该数据集时,研究者可以采用多种视觉语言模型,如CLIP、BLIP、EgoVLPv2和LanguageBind,通过调整这些模型以适应组合视频检索任务。特别地,提出的TFR-CVR方法结合了视觉过滤和文本重排序策略,显著提升了检索性能。研究者可以通过该数据集评估和改进现有模型的时序理解能力,推动视频检索技术的发展。
背景与挑战
背景概述
EgoCVR(Egocentric Composed Video Retrieval)数据集由Tübingen AI Center和Helmholtz Munich的MCML团队于2024年创建,旨在解决细粒度组合视频检索的挑战。该数据集包含2,295个查询,专注于高质量的时间视频理解。EgoCVR的创建标志着在视频检索领域迈出了重要一步,特别是在需要理解视频和文本输入并将其组合以高效检索所需视频的复杂任务中。该数据集的引入对视觉语言模型的发展产生了深远影响,特别是在视频和文本交叉领域。
当前挑战
EgoCVR数据集面临的挑战主要集中在两个方面:一是构建过程中需要获取大规模的训练数据集并收集高质量的评估基准;二是现有组合视频检索框架在处理此任务时未能达到必要的高质量时间视频理解。具体挑战包括:1) 需要理解视觉和文本输入并将其组合以检索所需视频;2) 现有模型在处理细微动作或行为时表现不佳;3) 自动数据集构建可能导致评估集质量受限,特别是在不需要时间理解的情况下。这些挑战要求开发新的方法和模型,以提升组合视频检索的准确性和效率。
常用场景
经典使用场景
EgoCVR 数据集的经典使用场景在于细粒度的组合视频检索任务。该数据集通过提供大量的以自我为中心的视频数据,结合文本描述,旨在帮助模型理解视频内容并根据文本指令进行精确的视频检索。例如,用户可以提供一个视频片段和一个文本描述,要求模型检索出符合描述的视频片段,如‘将锯子换成扳手’。这种任务要求模型具备高度的时序视频理解能力,以准确捕捉视频中的细微变化。
解决学术问题
EgoCVR 数据集解决了现有组合视频检索框架在时序视频理解方面的不足。通过引入大规模的以自我为中心的视频数据集,EgoCVR 提供了一个高质量的评估基准,使得研究者能够开发和验证新的模型,以实现更精确的时序视频理解和检索。这不仅推动了视频检索技术的发展,也为多模态学习提供了新的研究方向。
衍生相关工作
EgoCVR 数据集的发布催生了一系列相关研究工作,特别是在视频和语言模型的结合方面。例如,研究者们提出了基于 EgoCVR 的训练无方法,如 TFR-CVR,通过结合视觉和文本信息,显著提高了组合视频检索的性能。此外,EgoCVR 还激发了对多模态学习模型的进一步研究,推动了视频理解、语言生成和跨模态检索等领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录