LIVEVQA

Name: LIVEVQA
Creator: 华中科技大学, 华盛顿大学
Published: 2025-04-08 01:39:31
License: 暂无描述

arXiv2025-04-08 更新2025-04-09 收录

下载链接：

http://arxiv.org/abs/2504.05288v1

下载链接

链接失效反馈

官方服务：

资源简介：

LIVEVQA是一个自动收集的互联网最新视觉知识数据集，包含了合成的VQA问题。该数据集由6个主要全球新闻网站跨14个新闻类别收集的1233篇新闻文章和3602个最新VQA问题组成，特点是高质量的图像文本一致性和真实信息。每个实例包括一个代表性图像和三种类型的问题：一个基本的视觉理解问题和两个需要更深入推理的multi-hop问题。

LIVEVQA is a newly collected internet visual knowledge dataset, which includes synthetic VQA questions. Comprising 1233 news articles and 3602 latest VQA questions collected across 14 news categories from 6 major global news websites, this dataset is characterized by high-quality image-text consistency and authentic information. Each instance includes a representative image and three types of questions: one basic visual understanding question and two multi-hop questions requiring deeper reasoning.

提供机构：

华中科技大学, 华盛顿大学

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

LIVEVQA数据集通过自动化流程从六大全球新闻平台（CNN、BBC等）采集最新新闻内容，采用三级构建策略：首先通过URL标准化和结构化内容提取确保数据真实性；其次运用多级过滤机制（包括图像筛选和去重）保障数据质量；最后利用GPT-4o生成包含基础视觉问题和多跳推理问题的问答对。每个样本由代表性图像、基础视觉理解问答和两个需要跨模态推理的复杂问答组成，并通过人工循环标注验证信息准确性。

使用方法

研究者可通过零样本测试评估多模态大模型在LIVEVQA上的表现，重点关注模型处理基础视觉问题（Level 1）与多跳推理问题（Level 2-3）的能力差异。建议结合检索增强技术（如MM-Search）提升模型对实时视觉知识的获取能力。评估时需使用标准化指标，如由GPT-4o-mini作为公正裁判进行二值化判分，同时分析模型在人物识别、时空推理等8类问题上的表现差异，以全面衡量模型在动态多模态理解任务中的优劣。

背景与挑战

背景概述

LIVEVQA（Live Visual Knowledge Seeking）是由华中科技大学和华盛顿大学的研究团队于2025年推出的多模态视觉问答数据集，旨在评估AI系统对动态视觉知识的理解与推理能力。该数据集包含来自六大全球新闻平台的1,233条新闻和3,602个问答对，覆盖体育、电影、科技等14个领域，通过严格的时间过滤和自动化标注流程确保数据时效性。其创新性在于将多跳推理问题与实时视觉内容相结合，为多模态大语言模型（MLLM）在新闻理解、实时决策等场景的应用提供了基准测试平台。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域问题上，需解决动态视觉知识获取的难题，包括跨模态时序信息对齐、新闻场景的复杂语义理解，以及实时事件的多跳推理；构建过程中，需克服新闻图像的语义噪声过滤、多源异构数据标准化，以及自动化问答对生成的质量控制等技术瓶颈。实验表明，即使配备搜索引擎的GPT-4o在三级问题上准确率仅13.66%，凸显了模型在视觉时序推理和跨模态知识融合方面的显著缺陷。

常用场景

经典使用场景

LIVEVQA数据集在视觉问答（VQA）领域具有广泛的应用，特别是在需要结合实时视觉信息和文本知识的场景中。该数据集通过多跳问题设计，要求模型不仅识别图像内容，还需结合新闻背景进行推理，适用于评估模型在动态信息环境下的综合理解能力。例如，在体育新闻中，模型需根据球员图像识别所属球队，并进一步回答关于比赛细节的问题，展现了数据集在复杂推理任务中的经典应用。

解决学术问题

LIVEVQA数据集解决了多模态模型中实时视觉知识理解的难题，填补了现有研究在动态信息处理上的空白。通过严格的时序过滤和自动化标注，该数据集避免了模型依赖记忆知识的问题，确保了评估的真实性。其多跳问题设计推动了模型在跨模态推理、时序理解和因果分析等方面的研究，为提升AI系统在实时场景中的应用能力提供了重要基准。

实际应用

在实际应用中，LIVEVQA数据集可赋能实时新闻分析、个性化内容推荐和决策支持系统。例如，媒体平台可利用该数据集训练模型，自动生成新闻图像的问答摘要；教育领域可开发基于实时新闻的交互式学习工具；企业还能将其用于市场趋势分析，通过视觉问答快速提取关键信息。数据集的跨领域覆盖（如体育、科技、经济）进一步扩展了其应用场景的多样性。

数据集最近研究