AutoEval-Video

Name: AutoEval-Video
Creator: 上海交通大学电子信息与电气工程学院清远研究院
Published: 2023-11-25 10:46:12
License: 暂无描述

arXiv2023-11-25 更新2024-06-21 收录

下载链接：

https://github.com/XiuyuanChen/AutoEval-Video

下载链接

链接失效反馈

官方服务：

资源简介：

AutoEval-Video是由上海交通大学电子信息与电气工程学院清远研究院和字节跳动AI实验室共同创建的一个创新且具有挑战性的基准数据集，旨在全面评估大型视觉语言模型在开放式视频问答中的表现。该数据集包含327个复杂的开放式视频问答实例，覆盖9个技能维度，涉及感知、理解和生成能力。数据集中的视频来自YouTube，涵盖超过40个不同的主题。通过使用基于大型语言模型的评估方法，AutoEval-Video能够高效地评估对开放式问题的响应，特别开发了对抗性标注机制以提高规则的鲁棒性。该数据集的应用领域包括视频理解、时间动态理解等，旨在解决当前模型在这些领域的局限性。

AutoEval-Video is an innovative and challenging benchmark dataset co-created by the Qingyuan Research Institute, School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, and ByteDance AI Lab. It aims to comprehensively evaluate the performance of large vision-language models in open-ended video question answering. This dataset contains 327 complex open-ended video question answering instances, covering 9 skill dimensions involving perception, understanding and generation capabilities. The videos in the dataset are sourced from YouTube, spanning over 40 distinct topics. By adopting evaluation methods based on large language models, AutoEval-Video can efficiently assess responses to open-ended questions. A dedicated adversarial annotation mechanism was developed to enhance the robustness of the annotation rules. Its application fields include video understanding, temporal dynamic understanding and other related areas, aiming to address the limitations of current models in these domains.

提供机构：

上海交通大学电子信息与电气工程学院清远研究院

创建时间：

2023-11-25

搜集汇总

数据集介绍

构建方式

AutoEval-Video 是一个旨在全面评估大型视觉语言模型在开放式视频问答中能力的基准。该基准的构建方式体现在两个方面：首先，AutoEval-Video 构建了涵盖 9 个技能维度的开放式视频问题，涵盖了感知、理解和生成能力。其次，AutoEval-Video 包含了新收集的视频，涵盖了超过 40 个不同的主题。为了高效地评估开放式问题的答案，我们采用了一种基于大型语言模型（LLM）的评估方法，但与仅提供参考答案的方法不同，我们对每个实例（视频-问题对）都标注了独特的评估规则。为了最大限度地提高这些规则的鲁棒性，我们开发了一种新颖的对抗性标注机制。通过使用实例特定的规则作为提示，GPT-4 作为自动评估器，可以实现大约 97.0% 的稳定评估精度，与人类评估者的 94.9%-97.5% 精度相当。

特点

AutoEval-Video 的特点主要体现在其全面性和挑战性上。全面性体现在基准涵盖了 9 个技能维度，包括动态感知、状态转换感知、相机运动感知、解释性推理、反事实推理、预测性推理、比较推理、基于外部知识的推理和描述。挑战性体现在基准包含新收集的视频，涵盖了超过 40 个不同的主题，并采用了一种基于 LLM 的评估方法，通过对抗性标注机制提高了评估规则的鲁棒性。

使用方法

AutoEval-Video 的使用方法包括以下几个方面：首先，从 YouTube 收集视频并构建相关的问题。其次，为每个实例开发评估规则，并采用对抗性标注机制提高规则的鲁棒性。最后，使用 GPT-4 作为自动评估器，根据实例特定的规则进行评估。

背景与挑战

背景概述

AutoEval-Video数据集由陈秀媛、林元、张宇晨和黄伟然等人于2023年11月25日发表在arXiv上，旨在全面评估大型视觉语言模型在开放式视频问答中的能力。该数据集的创建旨在解决当前视频理解领域的评估不足问题，并推动视觉语言模型的发展。AutoEval-Video构建了涵盖9个技能维度的开放式视频问答，这些维度涵盖了视频感知、理解和生成能力。数据集包含从YouTube收集的新视频，覆盖了40多个不同的主题。为了有效地评估开放式问题的答案，研究者采用了基于大型语言模型（LLM）的评估方法，并为每个实例（视频-问题对）注释了独特的评估规则。通过实例特定的规则作为提示，GPT-4作为自动评估者，可以实现约97.0%的稳定评估准确率，与人类评估者的94.9%-97.5%准确率相当。此外，研究者在AutoEval-Video上评估了8个大型视觉语言模型的性能，其中GPT-4V的准确率最高，达到32.2%，但与人类的72.8%准确率相比，仍有很大的提升空间。

当前挑战

AutoEval-Video数据集面临着几个挑战。首先，评估开放式问题的答案可能很困难，特别是当检查由LLM生成的输出时。这些答案可能涉及视频描述和思维链分析，从而降低了传统自动评估指标的可靠性。为了解决这个问题，研究者采用了基于LLM的评估方法，并开发了对抗性注释机制来提高规则的精确性。其次，当前的视觉语言模型在视频理解方面仍然存在一些局限性，例如对时间和动态信息的理解有限，以及答案过于笼统。此外，模型在回答某些问题时可能会出现幻觉，即描述的对象或事件实际上并不存在于视频中。最后，模型在回答问题的过程中可能会出现对齐问题，即模型的回答与问题的要求不完全一致。这些挑战表明，尽管视觉语言模型在视频理解方面取得了显著进展，但仍然需要进一步的研究和改进。

常用场景

经典使用场景

AutoEval-Video数据集主要应用于评估大型视觉语言模型在开放式视频问答任务中的性能。该数据集涵盖了九种技能维度，包括动态感知、状态转换感知、摄像机移动感知、解释推理、反事实推理、预测推理、比较推理、使用外部知识推理以及描述。这些技能维度涵盖了视频理解中的感知、认知和生成能力。AutoEval-Video包含新收集的视频，覆盖超过40个不同的主题。为了高效地评估对开放式问题的回答，我们采用了一种基于LLM的评估方法，但并非仅仅提供一个参考答案，而是为每个实例（视频-问题对）标注独特的评估规则。为了最大限度地提高这些规则的鲁棒性，我们开发了一种新颖的对抗性标注机制。使用实例特定的规则作为提示，GPT-4作为自动评估器，可以实现大约97.0%的稳定评估精度，与人类评估者的94.9%-97.5%的精度相当。此外，我们在AutoEval-Video上评估了八种大型视觉语言模型的性能。其中，GPT-4V(ision)显著优于其他模型，达到32.2%的精度。然而，与人类72.8%的精度相比，仍有很大的改进空间。通过进行广泛的案例研究，我们发现GPT-4V存在一些缺点，例如有限的时态和动态理解以及过于笼统的回答。

实际应用

AutoEval-Video数据集在实际应用中可用于改进大型视觉语言模型在开放式视频问答任务中的性能。通过对模型在AutoEval-Video上的表现进行评估，研究人员可以发现模型的不足之处，并针对性地进行改进。此外，AutoEval-Video还可以用于比较和评估不同的视觉语言模型，以选择最适合特定应用场景的模型。例如，在视频监控、视频推荐、视频问答等应用中，可以使用AutoEval-Video来评估模型在理解视频内容、回答开放式问题方面的能力，从而提高应用的准确性和实用性。

衍生相关工作

AutoEval-Video数据集的提出和构建，为后续研究提供了重要的参考和启示。相关的研究工作可以基于AutoEval-Video数据集进行，例如：1）开发更先进的视觉语言模型，以提高模型在开放式视频问答任务中的性能；2）研究更有效的评估方法，以更准确地评估LLM生成的回答；3）探索更广泛的应用场景，以将AutoEval-Video应用于更多实际应用中。此外，AutoEval-Video数据集还可以与其他数据集结合使用，以构建更全面、更具挑战性的基准，从而推动视觉语言模型的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集