five

LIVEVQA

收藏
arXiv2025-04-08 更新2025-04-09 收录
下载链接:
http://arxiv.org/abs/2504.05288v1
下载链接
链接失效反馈
官方服务:
资源简介:
LIVEVQA是一个自动收集的互联网最新视觉知识数据集,包含了合成的VQA问题。该数据集由6个主要全球新闻网站跨14个新闻类别收集的1233篇新闻文章和3602个最新VQA问题组成,特点是高质量的图像文本一致性和真实信息。每个实例包括一个代表性图像和三种类型的问题:一个基本的视觉理解问题和两个需要更深入推理的multi-hop问题。

LIVEVQA is a newly collected internet visual knowledge dataset, which includes synthetic VQA questions. Comprising 1233 news articles and 3602 latest VQA questions collected across 14 news categories from 6 major global news websites, this dataset is characterized by high-quality image-text consistency and authentic information. Each instance includes a representative image and three types of questions: one basic visual understanding question and two multi-hop questions requiring deeper reasoning.
提供机构:
华中科技大学, 华盛顿大学
创建时间:
2025-04-08
搜集汇总
数据集介绍
main_image_url
构建方式
LIVEVQA数据集通过自动化流程从六大全球新闻平台(CNN、BBC等)采集最新新闻内容,采用三级构建策略:首先通过URL标准化和结构化内容提取确保数据真实性;其次运用多级过滤机制(包括图像筛选和去重)保障数据质量;最后利用GPT-4o生成包含基础视觉问题和多跳推理问题的问答对。每个样本由代表性图像、基础视觉理解问答和两个需要跨模态推理的复杂问答组成,并通过人工循环标注验证信息准确性。
使用方法
研究者可通过零样本测试评估多模态大模型在LIVEVQA上的表现,重点关注模型处理基础视觉问题(Level 1)与多跳推理问题(Level 2-3)的能力差异。建议结合检索增强技术(如MM-Search)提升模型对实时视觉知识的获取能力。评估时需使用标准化指标,如由GPT-4o-mini作为公正裁判进行二值化判分,同时分析模型在人物识别、时空推理等8类问题上的表现差异,以全面衡量模型在动态多模态理解任务中的优劣。
背景与挑战
背景概述
LIVEVQA(Live Visual Knowledge Seeking)是由华中科技大学和华盛顿大学的研究团队于2025年推出的多模态视觉问答数据集,旨在评估AI系统对动态视觉知识的理解与推理能力。该数据集包含来自六大全球新闻平台的1,233条新闻和3,602个问答对,覆盖体育、电影、科技等14个领域,通过严格的时间过滤和自动化标注流程确保数据时效性。其创新性在于将多跳推理问题与实时视觉内容相结合,为多模态大语言模型(MLLM)在新闻理解、实时决策等场景的应用提供了基准测试平台。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域问题上,需解决动态视觉知识获取的难题,包括跨模态时序信息对齐、新闻场景的复杂语义理解,以及实时事件的多跳推理;构建过程中,需克服新闻图像的语义噪声过滤、多源异构数据标准化,以及自动化问答对生成的质量控制等技术瓶颈。实验表明,即使配备搜索引擎的GPT-4o在三级问题上准确率仅13.66%,凸显了模型在视觉时序推理和跨模态知识融合方面的显著缺陷。
常用场景
经典使用场景
LIVEVQA数据集在视觉问答(VQA)领域具有广泛的应用,特别是在需要结合实时视觉信息和文本知识的场景中。该数据集通过多跳问题设计,要求模型不仅识别图像内容,还需结合新闻背景进行推理,适用于评估模型在动态信息环境下的综合理解能力。例如,在体育新闻中,模型需根据球员图像识别所属球队,并进一步回答关于比赛细节的问题,展现了数据集在复杂推理任务中的经典应用。
解决学术问题
LIVEVQA数据集解决了多模态模型中实时视觉知识理解的难题,填补了现有研究在动态信息处理上的空白。通过严格的时序过滤和自动化标注,该数据集避免了模型依赖记忆知识的问题,确保了评估的真实性。其多跳问题设计推动了模型在跨模态推理、时序理解和因果分析等方面的研究,为提升AI系统在实时场景中的应用能力提供了重要基准。
实际应用
在实际应用中,LIVEVQA数据集可赋能实时新闻分析、个性化内容推荐和决策支持系统。例如,媒体平台可利用该数据集训练模型,自动生成新闻图像的问答摘要;教育领域可开发基于实时新闻的交互式学习工具;企业还能将其用于市场趋势分析,通过视觉问答快速提取关键信息。数据集的跨领域覆盖(如体育、科技、经济)进一步扩展了其应用场景的多样性。
数据集最近研究
最新研究方向
近年来,LIVEVQA数据集在视觉知识获取与多模态推理领域引起了广泛关注。该数据集通过自动收集互联网最新视觉新闻并合成视觉问答问题,为评估AI系统在动态信息环境中的表现提供了重要基准。研究前沿集中在多模态大语言模型(MLLMs)的实时视觉知识处理能力上,特别是针对需要跨模态推理的多跳问题。实验表明,结合检索增强生成(RAG)技术和视觉搜索引擎能显著提升模型性能,但在复杂时空推理和抽象知识理解方面仍存在明显差距。该数据集推动了实时视觉问答系统的发展,为个性化体验和实时决策支持等应用奠定了基础,同时也揭示了当前模型在因果推理和隐私保护方面的局限性。
相关研究论文
  • 1
    LiveVQA: Live Visual Knowledge Seeking华中科技大学, 华盛顿大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作