CoMET-Bench

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/CoMET-Bench/CoMET-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CoMET-Bench是一个视频语言基准数据集，旨在评估时序视频理解、事件定位和基于查询的视频推理能力。该数据集包含视频URL、标题、描述、主题、时长以及问题列表。每个问题包含唯一的问题ID、查询文本、验证状态、标注状态、查询类型标签和时间戳标注等详细信息。视频文件存储在`videos/`文件夹中，处理后的标注文件位于`data/annotations.json`。该数据集经过处理，移除了内部标注者信息，并为每个问题添加了基于视频名称和问题编号的唯一ID字段，同时保留了原始的`query_id`字段。CoMET-Bench采用知识共享署名4.0国际许可协议（CC BY 4.0）发布。

CoMET-Bench is a video-language benchmark dataset designed to evaluate temporal video understanding, event localization, and query-based video reasoning capabilities. The dataset includes video URLs, titles, descriptions, topics, durations, and a list of questions. Each question contains detailed information such as a unique question ID, query text, verification status, annotation status, query type labels, and timestamp annotations. Video files are stored in the `videos/` folder, and processed annotation files are located in `data/annotations.json`. The dataset has been processed to remove internal annotator information and adds a unique ID field for each question based on the video name and question number, while retaining the original `query_id` field. CoMET-Bench is released under the Creative Commons Attribution 4.0 International License (CC BY 4.0).

创建时间：

2026-05-05

原始信息汇总

数据集概述

CoMET-Bench 是一个用于评估视频时间理解、事件定位和基于查询的视频推理能力的视频-语言基准数据集。

数据内容

每条记录包含以下信息：

视频 URL
视频标题
视频描述
视频主题
视频时长
问题列表

每个问题包括：

唯一的问题 ID
查询文本
验证状态
标注状态
查询类型标签
带时间戳的标注

文件结构

视频文件存储在 videos/ 文件夹中
处理后的标注文件位于：data/annotations.json

数据处理说明

处理后的标注文件移除了内部标注人员信息，并为每个问题添加了唯一的 id 字段（采用“视频名称/问题编号”的格式）。原始 query_id 字段被保留。

许可证

该数据集采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International 许可证（CC BY-NC-SA 4.0）发布。

搜集汇总

数据集介绍

构建方式

CoMET-Bench数据集专为评估视频语言模型在时间理解、事件定位与基于查询的视频推理能力而构建。其构建过程涉及从公开视频平台采集原始素材，并围绕视频的主题、时长及描述信息设计多维度问答对。每个问题均被赋予独立标识，同时保留原始查询ID，并经过验证与标注流程，确保所关联的时间戳标注准确反映视频中的特定事件边界。最终，所有注释信息被整合至统一的JSON文件中，剔除内部标注人员信息，形成结构严谨、可重复利用的评测基准。

使用方法

在使用CoMET-Bench时，首先需通过数据集提供的视频链接或本地`videos/`文件夹获取原始视频内容，随后读取`data/annotations.json`中的标注文件。该文件以字典形式存储，每条记录对应一个视频及其关联的问题列表，每个问题包含查询文本、时间戳及类型标签。研究者可依据自身需求，将问题按验证状态或注释状态筛选后，输入视频语言模型进行推理，并通过比对预测结果与标准时间戳及答案来量化模型在时间定位与事件理解上的表现。

背景与挑战

背景概述

CoMET-Bench是一个面向视频语言理解的多模态基准数据集，旨在推动时间感知推理、事件定位及基于查询的视频推理等前沿研究。该数据集由研究团队精心构建，聚焦于视频中复杂语义关系的时序建模，弥补了现有数据集在细粒度时间理解与跨模态对齐方面的不足。自发布以来，CoMET-Bench凭借其丰富的标注层次与严谨的验证流程，已成为评估视频语言模型时间推理能力的重要标准，显著促进了视频理解领域从静态识别向动态推理的范式演进。

当前挑战

CoMET-Bench所面临的挑战主要体现在两个层面。在领域问题层面，视频事件具有高度动态性与多义性，如何从连续帧中精准定位与自然语言描述相匹配的瞬时或片段化事件，并理解其因果与先后逻辑，是视频语言理解的核心难题。在数据集构建层面，团队需要处理视频来源的多样性、标注一致性的保障问题，以及大规模时序标注所带来的高昂人力成本与质量控制挑战，确保每个查询的标注既能反映真实事件边界，又能避免歧义，从而为模型评估提供可靠基准。

常用场景

经典使用场景

CoMET-Bench作为一款视频语言基准数据集，在时间视频理解领域发挥着标杆作用。研究者常将其用于评估模型对视频中时序事件的定位能力，例如判断模型能否精准捕捉“某个物体在特定时间点发生运动”或“一段连续动作的起止时刻”。该数据集通过丰富的查询文本与时间戳标注，为视频推理任务提供了标准化的测试平台，推动了从静态图像理解向动态事件解析的范式转变。其经典应用涵盖视频问答、时序动作定位以及基于自然语言查询的事件检索等方向。

解决学术问题

在学术研究中，CoMET-Bench着力破解视频语言模型在时间维度上的认知短板。传统视频数据集多侧重空间特征或语义分类，缺乏对事件时序关系与因果链条的细粒度标注。该数据集通过引入多粒度时间戳与多样化的查询类型，解决了模型在“事件起止判定”、“动作顺序推理”及“跨片段事件关联”等核心问题上的评估难题。其意义在于建立了衡量模型时序理解能力的统一标尺，促进了视频-语言联合推理技术的突破性进展。

实际应用

CoMET-Bench衍生出的技术成果已广泛渗透至实际应用场景。在智能安防领域，基于该数据集训练的模型能够精准定位监控视频中的异常事件发生时刻；在短视频剪辑工具中，时序理解算法可以自动识别用户指定场景的起止点，辅助生成高光片段。此外，在视频摘要生成、体育赛事精彩回放自动截取以及自动驾驶中的交通事件分析中，该数据集催生的模型均展现出卓越的时序敏感性与事件推理能力。

数据集最近研究