CG-Bench

Hugging Face2024-12-15 更新2024-12-16 收录

下载链接：

https://huggingface.co/datasets/CG-Bench/CG-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CG-Bench是一个用于长视频中基于线索的问题回答的突破性基准。它包括1,219个手动精选的视频，跨越14个主要、171个次要和638个三级类别，使其成为长视频分析的最大基准。数据集包含12,129个QA对，分为感知、推理和幻觉问题类型，并引入了创新的基于线索的评估方法：基于线索的白盒和黑盒评估，确保答案基于正确的视频理解。评估显示，各种多模态大语言模型（MLLMs）在长视频理解方面存在显著的性能差距，特别是在开源和商业模型之间。CG-Bench旨在推动开发更可靠和有能力的长视频理解MLLMs。所有注释和视频数据将公开发布。

CG-Bench is a groundbreaking benchmark for clue-based question answering in long-form videos. It includes 1,219 manually curated videos spanning 14 primary, 171 secondary, and 638 tertiary categories, making it the largest benchmark for long-form video analysis. The dataset contains 12,129 QA pairs categorized into perception, reasoning, and hallucination question types, and introduces an innovative clue-based evaluation approach: clue-based white-box and black-box evaluations, which ensure that answers are grounded in correct video understanding. Evaluations demonstrate that various multimodal large language models (MLLMs) have significant performance gaps in long-form video understanding, especially between open-source and commercial models. CG-Bench aims to promote the development of more reliable and capable long-form video understanding MLLMs. All annotations and video data will be publicly released.

创建时间：

2024-12-10

原始信息汇总

CG-Bench 数据集概述

数据集简介

CG-Bench 是一个用于长视频中线索导向问答的突破性基准测试，旨在解决现有基准测试主要关注短视频和依赖多项选择题（MCQs）的局限性。该基准测试通过要求模型检索相关线索来增强评估的可信度，包含1,219个手动精选的视频，涵盖14个主要类别、171个次要类别和638个三级类别，是长视频分析的最大基准测试。数据集包含12,129个问答对，涵盖感知、推理和幻觉问题类型，并引入了创新的线索导向评估方法：线索导向的白盒和黑盒评估，确保答案基于正确的视频理解。

数据集统计

视频元数据

视频数量：1,219个视频
视频时长：10到80分钟不等，其中20到30分钟的视频最为常见
分类系统：采用三级标签系统，包括14个主要类别、171个次要类别和638个三级类别
多模态信息：每个视频包含视觉、音频和字幕等多模态信息

问题元数据

问答对数量：12,129个问答对
问题类型：分为感知、推理和幻觉三大类，进一步细分为10个子类和14个子类
标注方式：采用高质量的问答线索（QAC）三元组标注，每个视频包含6到15个QAC三元组
标注语言：标注者使用母语进行标注，以减少表达损失

基准测试对比

问题线索导向

CG-Bench-QG：在视频数量和平均时长上优于其他基准测试，具有更广泛的线索导向查询

短视频问答

CG-Bench-Clue：作为最大的、开放域的、多模态的短视频问答基准测试，优于现有的短视频基准测试

长视频问答

CG-Bench：在视频数量、时长、问题数量和标注质量上优于现有的长视频基准测试，特别是通过线索间隔标注，进一步促进了长视频的可靠评估

引用

bibtex @misc{chen2023cgbench, title={CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding}, author={Guo Chen and Yicheng Liu and Yifei Huang and Yuping He and Baoqi Pei and Jilan Xu and Yali Wang and Tong Lu and Limin Wang}, year={2024}, eprint={xxxx.xxxxx}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

CG-Bench数据集的构建方式独具匠心，通过精心挑选的1,219个视频，涵盖了从10分钟到80分钟不等的时长，其中20至30分钟的视频最为常见。这些视频不仅包含视觉、音频和字幕等多模态信息，还通过三层分类系统进行详细标注，包括14个主要类别、171个次要类别和638个三级类别，确保了数据内容的广泛多样性。此外，数据集中的每个视频都配备了6至15个高质量的问答线索（QAC）三元组，这些问题分为感知、推理和幻觉三大类，进一步细分为多个子类别，以确保问题的多样性和深度。

特点

CG-Bench数据集的显著特点在于其对长视频理解的全面覆盖和创新评估方法。该数据集不仅规模庞大，包含12,129个问答对，而且引入了基于线索的白盒和黑盒评估方法，确保模型答案的真实理解而非简单排除。此外，CG-Bench在视频时长和分类多样性上远超现有基准，特别是在长视频分析领域，其多层次的标签系统和详细的线索标注为模型提供了更为复杂和真实的挑战。

使用方法

CG-Bench数据集的使用方法灵活多样，适用于多种多模态学习模型的评估和训练。研究者可以通过访问项目网站获取最新的排行榜和实验结果，同时GitHub仓库中提供了运行代码，便于直接应用。数据集的问答线索三元组和多层次分类系统为模型提供了丰富的训练数据，特别适合于需要深入理解长视频内容的任务。此外，CG-Bench还支持短视频问答和长视频问答两种基准，为不同研究需求提供了全面的解决方案。

背景与挑战

背景概述

CG-Bench数据集由Guo Chen等人于2024年提出，旨在解决现有长视频问答基准的局限性，特别是针对短视频和多选题问答的依赖问题。该数据集包含了1,219个手动筛选的长视频，涵盖14个主要类别、171个次要类别和638个三级类别，是迄今为止最大的长视频分析基准。CG-Bench通过引入基于线索的评估方法，如线索基础的白盒和黑盒评估，确保模型能够基于正确的视频理解进行回答。该数据集的发布旨在推动多模态大语言模型（MLLMs）在长视频理解方面的能力提升，并为相关领域的研究提供丰富的资源和评估工具。

当前挑战

CG-Bench数据集面临的主要挑战包括：1) 长视频内容的复杂性和多样性，要求模型具备更强的多模态理解和推理能力；2) 构建过程中，手动筛选和标注大量高质量的问答对和线索，确保数据集的多样性和代表性；3) 评估方法的创新性，如线索基础的白盒和黑盒评估，需要精确设计以确保评估的可靠性和有效性。此外，长视频问答的开放性和多模态特性也为模型的训练和评估带来了技术上的挑战，特别是在处理长尾效应和多模态信息融合方面。

常用场景

经典使用场景

CG-Bench数据集在长视频理解领域中，以其独特的线索导向问答机制，成为评估多模态大语言模型（MLLMs）性能的经典工具。该数据集通过12,129个高质量的问答对，涵盖感知、推理和幻觉三种主要问题类型，要求模型不仅回答问题，还需基于视频中的相关线索进行推理，从而确保答案的真实性和准确性。这种设计有效避免了传统多选题问答中依赖排除法而非真正理解的弊端，为长视频内容分析提供了更为严谨的评估框架。

实际应用

在实际应用中，CG-Bench数据集为长视频内容分析提供了强大的工具支持，广泛应用于视频监控、教育内容分析、影视内容理解等领域。例如，在视频监控中，该数据集可以帮助系统自动识别和分析长时间视频中的关键事件和线索，提升安全监控的效率和准确性。在教育领域，CG-Bench可用于评估和优化教育视频的内容理解模型，帮助学生更好地理解和吸收视频内容。此外，影视行业也可利用该数据集进行视频内容的自动分析和推荐，提升用户体验。

衍生相关工作

CG-Bench数据集的推出激发了大量相关研究工作，特别是在长视频理解和多模态大语言模型的评估领域。许多研究者基于CG-Bench的线索导向问答机制，开发了新的模型和算法，以提升长视频内容的理解和分析能力。例如，有研究提出了基于CG-Bench的增强型多模态模型，通过结合视觉、音频和文本信息，显著提升了模型在长视频中的表现。此外，CG-Bench还启发了对现有基准测试的重新审视和改进，推动了整个领域的技术进步和标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集