vlv-bench/VLV-Benchmark

Name: vlv-bench/VLV-Benchmark
Creator: vlv-bench
Published: 2024-06-18 20:55:32
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/vlv-bench/VLV-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

VLV-Bench是一个用于长视频理解的综合基准测试数据集。该数据集包含平均时长为76.34分钟的长视频，108.2K个问答对，问题类型多样，涵盖九种不同的技能，包括选择题和开放式问题。视频来源主要是电影和日常电视节目，设计了需要批判性思维和全面理解的人类级别问题，如电影剧透问题。该数据集用于评估现有的大型多模态模型（LMMs），包括商业模型Gemini 1.5 Flash和开源模型。评估结果显示，现有模型在该基准测试中面临显著挑战，最佳AI模型Gemini的平均准确率仅为42.72%，平均得分为2.71（满分5分）。

VLV-Bench is a comprehensive benchmark dataset for long video understanding. This dataset comprises long videos with an average duration of 76.34 minutes, 108.2K question-answer pairs, and a diverse set of question types spanning nine distinct skills, including multiple-choice and open-ended questions. The videos are primarily sourced from movies and daily television programs, and human-level questions that require critical thinking and comprehensive comprehension are designed, such as movie spoiler-related questions. This dataset is utilized to evaluate existing large multimodal models (LMMs), including the commercial model Gemini 1.5 Flash and open-source models. Evaluation results demonstrate that existing models face significant challenges on this benchmark: the best-performing AI model Gemini achieves an average accuracy of only 42.72%, with an average score of 2.71 (out of 5).

提供机构：

vlv-bench

原始信息汇总

VLV-Bench 数据集概述

概览

VLV-Bench 是一个用于非常长视频理解的全面基准测试，具有以下特点：

最长视频时长：平均 76.34 分钟。
最多的问答对：108.2K 对。
问题多样性：考察九种不同技能，包括多项选择题和开放式问题。
以人为中心：视频来源为电影和日常电视节目，设计有人类级别的提问，如需要批判性思维和全面理解的电影剧透问题。

数据集统计

最长视频时长：平均 76.34 分钟。
问答对数量：108.2K 对。
问题类型：包括多项选择题和开放式问题。
技能多样性：考察九种不同技能。

视频下载

TVQA 视频：
- 下载原始 TVQA 视频并转换为长视频格式。
- 脚本：python videos_preprocessing/convert_tvqa_from_short_to_long.py
- 输出：完整视频集和验证数据注释文件。
MovieNet 数据：
- 下载原始 MovieNet 数据并过滤无字幕电影。
- 脚本：python filter_movienet.py
- 输出：MP4 格式视频。

注释文件

注释文件包含九种技能的注释，可在 Hugging Face 数据集格式中找到。

评估

使用评估脚本进行准确性和 GPT-4 评分。
预测格式： python [ {"Q":"question", "A":"answer", "pred":"model_pred"}, ... ]
准确性评估脚本：bash evaluation/GPT4_eval/gpt4_accuracy.sh
GPT-4 评分脚本：bash evaluation/GPT4_eval/gpt4_score.sh

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集