five

vlv-bench/VLV-Benchmark

收藏
Hugging Face2024-06-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/vlv-bench/VLV-Benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
VLV-Bench是一个用于长视频理解的综合基准测试数据集。该数据集包含平均时长为76.34分钟的长视频,108.2K个问答对,问题类型多样,涵盖九种不同的技能,包括选择题和开放式问题。视频来源主要是电影和日常电视节目,设计了需要批判性思维和全面理解的人类级别问题,如电影剧透问题。该数据集用于评估现有的大型多模态模型(LMMs),包括商业模型Gemini 1.5 Flash和开源模型。评估结果显示,现有模型在该基准测试中面临显著挑战,最佳AI模型Gemini的平均准确率仅为42.72%,平均得分为2.71(满分5分)。

VLV-Bench is a comprehensive benchmark dataset for long video understanding. This dataset comprises long videos with an average duration of 76.34 minutes, 108.2K question-answer pairs, and a diverse set of question types spanning nine distinct skills, including multiple-choice and open-ended questions. The videos are primarily sourced from movies and daily television programs, and human-level questions that require critical thinking and comprehensive comprehension are designed, such as movie spoiler-related questions. This dataset is utilized to evaluate existing large multimodal models (LMMs), including the commercial model Gemini 1.5 Flash and open-source models. Evaluation results demonstrate that existing models face significant challenges on this benchmark: the best-performing AI model Gemini achieves an average accuracy of only 42.72%, with an average score of 2.71 (out of 5).
提供机构:
vlv-bench
原始信息汇总

VLV-Bench 数据集概述

概览

VLV-Bench 是一个用于非常长视频理解的全面基准测试,具有以下特点:

  1. 最长视频时长:平均 76.34 分钟。
  2. 最多的问答对:108.2K 对。
  3. 问题多样性:考察九种不同技能,包括多项选择题和开放式问题。
  4. 以人为中心:视频来源为电影和日常电视节目,设计有人类级别的提问,如需要批判性思维和全面理解的电影剧透问题。

数据集统计

  • 最长视频时长:平均 76.34 分钟。
  • 问答对数量:108.2K 对。
  • 问题类型:包括多项选择题和开放式问题。
  • 技能多样性:考察九种不同技能。

视频下载

  • TVQA 视频

    • 下载原始 TVQA 视频并转换为长视频格式。
    • 脚本:python videos_preprocessing/convert_tvqa_from_short_to_long.py
    • 输出:完整视频集和验证数据注释文件。
  • MovieNet 数据

    • 下载原始 MovieNet 数据并过滤无字幕电影。
    • 脚本:python filter_movienet.py
    • 输出:MP4 格式视频。

注释文件

  • 注释文件包含九种技能的注释,可在 Hugging Face 数据集格式中找到。

评估

  • 使用评估脚本进行准确性和 GPT-4 评分。

  • 预测格式: python [ {"Q":"question", "A":"answer", "pred":"model_pred"}, ... ]

  • 准确性评估脚本:bash evaluation/GPT4_eval/gpt4_accuracy.sh

  • GPT-4 评分脚本:bash evaluation/GPT4_eval/gpt4_score.sh

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作