WildVideo

github2025-12-08 更新2025-12-10 收录

下载链接：

https://github.com/yangsongyuan18/WildVideo

下载链接

链接失效反馈

官方服务：

资源简介：

WildVideo是一个开放世界的基准数据集，旨在解决如何评估大型多模态模型（LMMs）在野外理解视频语言交互时的幻觉问题。数据集包含1,318个精心挑选的开放世界场景视频，涵盖第一人称和第三人称视角，并构建了13,704个单轮问答对和1,585个多轮对话（每轮最多5个回合）。

WildVideo is an open-world benchmark dataset designed to address the challenge of evaluating hallucinations in large multimodal models (LMMs) when they interpret video-language interactions in unconstrained real-world scenarios. The dataset comprises 1,318 carefully curated open-world scenario videos covering both first-person and third-person perspectives, and includes 13,704 single-turn question-answer pairs and 1,585 multi-turn dialogues, with each dialogue consisting of up to 5 conversational turns.

创建时间：

2025-11-25

原始信息汇总

WildVideo 数据集概述

数据集简介

WildVideo 是一个开放世界的基准数据集，旨在评估大型多模态模型在真实场景下理解视频-语言交互时的幻觉问题。

核心特点

任务设计

多层次、多维度任务设计：定义了9个不同的任务，从多个维度对LMMs进行压力测试。
任务类型：
- 感知任务：例如静态感知、动态感知。
- 认知任务：例如常识推理、世界知识推理。
上下文理解任务：例如上下文省略、跨轮次检索。

数据构成

视频来源：收集自开放世界场景的1,318个精心策划的视频。
视角覆盖：
- 第一人称视角（自我中心）
- 第三人称视角（观察者）
构建内容：
- 13,704个单轮次问答对。
- 1,585个多轮次对话（每个对话最多5轮）。

评估方法

评估框架：评估流程集成在 LMMs-Eval 框架中。
评估任务：支持对 wildvideo_single_en、wildvideo_single_cn、wildvideo_multi_en、wildvideo_multi_cn 等任务进行评估。

获取与引用

数据集地址：https://huggingface.co/datasets/yangsongyuan18/wildvideo
引用文献：
- 标题：WildVideo: Benchmarking LMMs for Understanding Video-Language Interaction
- 作者：Yang, Songyuan 等
- 出处：IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2025

搜集汇总

数据集介绍

构建方式

在视频语言交互研究领域，WildVideo数据集通过精心设计的构建流程，为评估大型多模态模型的幻觉问题提供了坚实基础。该数据集从开放世界场景中收集了1318个经过严格筛选的视频，涵盖第一人称和第三人称两种人类视角，以模拟真实环境下的视觉感知多样性。基于这些视频素材，研究团队构建了13704个单轮问答对以及1585个多轮对话，每个对话最多包含五轮交互，从而形成了多层次、多方面的任务体系。这种构建方式不仅确保了数据来源的广泛性和代表性，还通过结构化标注为模型评估提供了丰富的语言交互语境。

使用方法

为了便于研究社区使用WildVideo数据集，其评估流程已集成到LMMs-Eval工具包中，提供了标准化的评估框架。用户可以通过安装lmms-eval软件包，并配置相应的模型参数和任务文件，轻松进行模型性能测试。评估支持单轮和多轮对话任务，涵盖中英文版本，用户只需通过命令行指定任务类型和模型路径，即可启动自动化评估过程。例如，使用LLaVA-Video-7B-Qwen2模型时，可通过调整任务参数如wildvideo_single_en或wildvideo_multi_cn，实现对不同语言和交互模式的评估，结果将自动记录并输出到指定日志路径。

背景与挑战

背景概述

随着多模态大模型在视频语言理解领域的快速发展，评估模型在开放世界场景中的幻觉问题成为关键研究课题。WildVideo数据集由Songyuan Yang等研究人员于2025年创建，旨在系统评估大模型对视频与语言交互的理解能力。该数据集包含1318个从开放世界场景中精心挑选的视频，涵盖第一人称和第三人称视角，并构建了13704个单轮问答对和1585个多轮对话。通过设计感知、认知和上下文理解三个层次的九项任务，WildVideo为衡量模型在复杂真实环境中的性能提供了标准化基准，推动了视频语言交互研究向更严谨的评估范式发展。

当前挑战

WildVideo致力于解决多模态大模型在视频语言交互中产生的幻觉问题，其核心挑战在于如何设计能够全面检验模型感知与推理能力的评估任务。数据集构建过程中面临多重困难：开放世界视频的采集需要平衡场景多样性与内容质量，确保视频既能反映真实复杂性又具备标注可行性；多轮对话的构建需保持上下文连贯性，同时避免引入人为偏差；多层级任务的设计要求精确划分感知与认知边界，这对标注者的领域专业知识提出了极高要求。这些挑战共同构成了数据集开发的技术壁垒。

常用场景

经典使用场景

在视频语言交互研究领域，WildVideo数据集作为开放世界基准，其经典使用场景集中于评估大型多模态模型在复杂真实环境下的幻觉现象。该数据集通过精心设计的九项任务，涵盖从静态感知到动态感知的知觉层面，延伸至常识推理与世界知识推理的认知层面，并深入上下文理解如语境省略与跨轮次检索，为模型提供了多层次、多角度的压力测试框架。研究者可借助其包含的第一人称与第三人称视角视频，以及单轮问答与多轮对话数据，系统性地检验模型对开放世界视频内容的理解与推理能力，从而推动视频语言交互技术的边界。

解决学术问题

WildVideo数据集致力于解决大型多模态模型在视频语言交互中普遍存在的幻觉问题，即模型生成与视频内容不符或缺乏依据的回应。通过构建开放世界场景下的多样化任务，该数据集帮助学术界量化模型的感知准确性、认知一致性及上下文连贯性，为模型评估提供了标准化、可复现的基准。其意义在于填补了现有基准在真实世界复杂性与多模态交互深度上的空白，促进了模型鲁棒性与可信度的提升，对推动多模态人工智能向更可靠、更理解人类语境的方向发展具有深远影响。

实际应用

在实际应用层面，WildVideo数据集为智能视频分析、人机交互及内容生成系统提供了关键的评估工具。例如，在自动驾驶或安防监控中，模型需准确理解第一人称视角视频中的动态事件；在教育或娱乐领域，多轮对话能力支持更自然的交互体验。该数据集通过模拟真实世界的视频语言交互场景，助力开发者优化模型在开放环境下的表现，提升智能系统在实际部署中的可靠性、安全性与用户体验，为多模态技术的产业化落地奠定坚实基础。

数据集最近研究