FIOVA

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/huuuuusy/FIOVA

下载链接

链接失效反馈

官方服务：

资源简介：

FIOVA（五合一视频注释）是一个以人为中心的数据集，旨在评估大型视觉语言模型（LVLMs）生成的长视频描述与人类感知的对齐程度。该数据集包含3,002个真实世界的视频，每个视频都由五个 annotators 独立注释，捕捉不同的语义视角，支持丰富的评估。

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在视频内容理解领域，FIOVA数据集通过精心设计的构建流程确立了其独特性。该数据集收录了3,002段平均时长为33.6秒的现实世界视频，覆盖38个不同主题场景。核心构建策略是采用五名标注者独立标注机制，每段视频均获得五组人工撰写的描述文本，累计生成15,010条原始标注。这些多视角标注经由GPT技术融合处理，形成兼具语义广度与深度的标准答案，有效解决了传统单标注参考的局限性。

特点

该数据集最显著的特征体现在其多维度的评估体系设计。除了包含传统词汇重叠度指标外，创新性地引入了事件级语义度量AutoDQ与认知度量FIOVA-DQ，后者通过人类共识加权机制评估事件重要性。数据内容层面，标注文本长度达到传统数据集的4至15倍，且专门构建的FIOVAhard子集聚焦高争议性复杂场景，为模型鲁棒性测试提供了理想基准。

使用方法

研究人员可通过HuggingFace平台加载数据集进行非商业研究。使用datasets库调用'huuuuusy/FIOVA'即可获取完整资源，其中data.zip包含原始视频，original_gt系列文件提供人工标注，overall_gt则集成融合后的标准答案。配套的code.zip提供完整评估工具链，支持传统指标、事件语义分析与认知度量三类评估范式，助力长视频描述模型的精细化性能诊断。

背景与挑战

背景概述

随着大视觉语言模型在长视频理解领域的快速发展，传统评估方法在语义覆盖度和认知对齐方面逐渐显现局限性。FIOVA基准数据集由多机构研究团队于2024年创建，通过采集3,002段平均时长33.6秒的现实世界视频，并邀请五位标注者独立完成视频描述标注，构建了包含15,010条人工标注与3,002条GPT融合标注的多视角语料库。该数据集创新性地引入事件重要性加权评估机制，为长视频描述生成模型的语义完整性与时序连贯性评估提供了新的方法论框架。

当前挑战

在视频描述生成领域，传统单参考标注难以捕捉语义多样性，基于词汇重叠的评估指标无法有效衡量描述质量。FIOVA构建过程中面临多标注者一致性协调的挑战，需通过GPT融合技术整合五位标注者的语义视角。针对模型评估维度，数据集设计了三级评估体系，特别是基于人类共识加权的FIOVA-DQ认知指标，解决了传统方法在事件重要度量化方面的不足。此外，专门构建的FIOVAhard子集通过高争议性样本进一步验证模型的复杂场景适应能力。

常用场景

经典使用场景

在长视频理解研究领域，FIOVA数据集通过整合五位独立标注者的多视角语义描述，为大规模视觉语言模型的长视频描述能力评估提供了标准化测试平台。其精心设计的38个现实主题场景与平均33.6秒的视频时长，有效模拟了真实环境中视频内容的复杂性与连续性，特别适用于检验模型在事件关联性、时序连贯性及语义覆盖度等方面的综合表现。

解决学术问题

该数据集突破了传统视频描述数据集的三大局限：单一参考标注导致的评估偏差、短视频内容的结构简单性、以及词汇重叠度指标的机械性评估。通过引入基于人类共识的FIOVA-DQ认知度量框架，系统解决了多模态模型在长视频语义理解中普遍存在的关键事件遗漏、时序逻辑混乱等核心问题，为建立更符合人类认知的评估体系提供了理论支撑。

衍生相关工作

基于FIOVA的评估范式，已有VideoLLaMA2、GPT-4o等九种前沿模型完成了系统性评测，催生了事件重要性加权评估方法的标准革新。其多参考标注机制启发了后续研究对标注者认知差异的量化建模，而融合GPT生成的基准描述方法则为多源标注融合技术开辟了新路径，推动了长视频理解领域从单一描述生成向多维语义评估的理论转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集