ConViS-Bench

github2025-09-25 更新2025-09-26 收录

下载链接：

https://github.com/benedettaliberatori/convisbench

下载链接

链接失效反馈

官方服务：

资源简介：

ConViS-Bench是一个新的基准数据集，包含经过精心注释的视频对，涵盖多个领域。每个视频对都带有概念级别的相似性分数以及差异和相似性的文本描述。该数据集支持基于概念的视频相似性估计任务，使研究人员能够像人类一样推理视频相似性，并实现诸如概念条件视频检索等新应用。

ConViS-Bench is a novel benchmark dataset consisting of carefully annotated video pairs spanning multiple domains. Each video pair is equipped with concept-level similarity scores, as well as textual descriptions of both differences and similarities. This dataset supports concept-based video similarity estimation tasks, enabling researchers to reason about video similarity in a human-like manner and facilitating novel applications such as concept-conditioned video retrieval.

创建时间：

2025-09-22

原始信息汇总

ConViS-Bench 数据集概述

数据集基本信息

数据集名称: ConViS-Bench
任务定义: 基于概念的视频相似性估计（Concept-based Video Similarity estimation, ConViS）
核心目标: 通过预定义的关键语义概念计算视频对之间的可解释相似性分数，支持人类推理视频相似性并实现概念条件视频检索等新应用

数据集构成

内容类型: 精心标注的视频对，涵盖多个领域
标注信息:
- 概念级相似性分数
- 差异和相似性的文本描述

支持的概念

Location（地点）
MainAction（主要动作）
MainSubjects（主要主体）
MainObjects（主要对象）
OrderOfActions（动作顺序）

支持的模型

大型多模态模型（LMMs）

mPLUG/mPLUG-Owl3-7B-240728
lmms-lab/llava-onevision-qwen2-7b-ov
lmms-lab/llava-onevision-qwen2-0.5b-ov
lmms-lab/LLaVA-Video-7B-Qwen2
OpenGVLab/InternVL2_5-4B
OpenGVLab/InternVL2_5-8B
OpenGVLab/InternVL3-8B
Qwen/Qwen2.5-VL-3B-Instruct
Qwen/Qwen2.5-VL-7B-Instruct
Gemini（闭源模型，需API密钥）

其他模型

MCG-NJU/videomae-large
facebook/dinov2-large
openai/clip-vit-large-patch14
InternVideo/InternVideo-MM-L-14
VQAScore/LLaVA-OneVision

评估指标

相关性计算: 条件相关性评估
检索指标: Rec@1、Prec@1、F1分数

数据集获取

下载地址: https://huggingface.co/datasets/bliberatori/ConViS-Bench
下载命令: bash mkdir ConViS-Bench/ huggingface-cli download bliberatori/ConViS-Bench --repo-type dataset --local-dir ConViS-Bench/

环境配置

Python版本: 3.12.2
主要依赖: PyTorch 2.5.1、TorchVision 0.20.1、TorchAudio 2.5.1
特殊环境: 为Qwen模型和VQAScore提供额外依赖文件

搜集汇总

数据集介绍

构建方式

在视频理解研究领域，构建高质量的数据集对于评估模型性能至关重要。ConViS-Bench通过精心筛选多领域视频对，并基于预定义的关键语义概念进行人工标注，确保每个视频对都配备概念级别的相似度分数以及详细的文本描述。该数据集涵盖位置、主要动作、主体对象等多个维度，标注过程注重语义一致性和多样性，为视频相似性任务提供了可靠的基准。

特点

ConViS-Bench的独特之处在于其以语义概念为核心的设计理念，支持人类式的多角度视频比较。数据集包含丰富的概念维度，如场景位置、核心动作和主体对象等，每个维度均配有可解释的相似度评分。视频对来源广泛，覆盖不同场景和内容类型，标注信息包括差异与相似性的自然语言描述，为模型对齐人类判断提供了结构化基础。

使用方法

该数据集的使用依托于预定义的脚本和模型接口，用户可通过命令行工具调用多种大型多模态模型进行相似度计算或检索任务。具体操作包括设置模型路径、选择语义概念及帧数参数，运行后结果将自动保存至指定目录。数据集支持条件检索评估，可计算精确率等指标，需注意不同模型的依赖环境需单独配置以确保兼容性。

背景与挑战

背景概述

在视频理解领域，如何量化视频间的相似性一直是核心研究议题。ConViS-Bench由Benedetta Liberatori等人于2024年创建，旨在推动基于语义概念的视频相似性评估研究。该数据集依托大型多模态模型的发展，通过预定义关键语义概念（如场景位置、主体行为、动作顺序等），构建了多领域精细标注的视频对集合。其创新性在于将人类对视频的多维度认知转化为可计算指标，为语言驱动的视频理解研究提供了重要基准。

当前挑战

该数据集致力于解决视频相似性评估中的语义多义性挑战，即同一视频在不同概念维度下可能呈现截然不同的相似性判断。构建过程中的挑战主要体现在标注复杂性上：需要人工对视频对的语义概念进行细粒度分解，并确保跨领域（如日常活动、专业场景）标注的一致性。此外，如何平衡概念覆盖广度与标注成本，以及设计能够捕捉时序动态的评估框架，亦是数据集构建的关键难点。

常用场景

经典使用场景

在视频理解研究领域，ConViS-Bench数据集通过语义概念驱动的相似性评估框架，为多模态模型提供了标准化的测试平台。该数据集支持研究者针对特定语义维度（如场景地点、主要动作、主体对象等）进行视频对的精细化相似度计算，突破了传统全局相似度评估的局限性。模型在该数据集上的表现能够直观反映其语义理解能力与人类认知的匹配程度，为视频相似性任务的算法优化提供了重要参照。

衍生相关工作

围绕ConViS-Bench衍生的研究已形成多模态视频理解的新方向。基于该基准的模型对比研究揭示了InternVL、Qwen-VL等大型多模态模型在概念理解上的能力差异，催生了针对特定语义维度的模型优化策略。其提出的概念条件检索范式启发了后续视频-语言交互研究，如基于注意力机制的概念权重自适应方法、多概念联合推理框架等。这些工作共同推动了语义可控视频分析技术的发展，为构建下一代智能视频系统奠定理论基础。

数据集最近研究