WorldVQA
收藏github2026-01-27 更新2026-01-28 收录
下载链接:
https://github.com/MoonshotAI/WorldVQA
下载链接
链接失效反馈官方服务:
资源简介:
WorldVQA是一个精心设计的基准数据集,旨在评估多模态大语言模型(MLLMs)中的原子视觉中心世界知识。该数据集包含3,500个VQA对,涵盖9个类别,并注重语言和文化多样性。
WorldVQA is a carefully curated benchmark dataset designed to evaluate atomic vision-centric world knowledge for Multimodal Large Language Models (MLLMs). It consists of 3,500 VQA pairs across 9 categories, with a focus on linguistic and cultural diversity.
创建时间:
2026-01-26
原始信息汇总
WorldVQA数据集概述
数据集简介
WorldVQA是一个用于评估多模态大语言模型(MLLMs)原子化视觉中心世界知识的基准数据集。该数据集旨在严格衡量“模型记忆了什么”,将视觉知识检索与推理能力解耦,以评估视觉事实性。
核心特征
- 数据规模:包含3,500个视觉问答(VQA)对。
- 类别覆盖:涵盖9个类别。
- 设计原则:注重语言和文化多样性,采用分层分类法,覆盖从常见头部类别对象到长尾稀有实体的范围。
评估目标
该基准用于严格测试视觉事实性,为评估当前和下一代前沿模型的百科全书广度和幻觉率建立标准。
数据集获取
- Hugging Face数据集地址:https://huggingface.co/datasets/moonshotai/WorldVQA
- 论文地址:https://github.com/MoonshotAI/WorldVQA/blob/master/paper/worldvqa.pdf
- 项目主页:https://worldvqa2026.github.io/WorldVQA/
引用信息
bibtex @misc{worldvqa2025, title={WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models}, author={MoonshotAI}, year={2025}, howpublished={url{https://github.com/MoonshotAI/WorldVQA}}, }
搜集汇总
数据集介绍

构建方式
在评估多模态大语言模型视觉知识能力的背景下,WorldVQA数据集通过精心设计的构建流程,旨在解耦视觉知识检索与推理过程,以严格衡量模型对视觉事实的记忆能力。该数据集包含3,500个视觉问答对,覆盖9个类别,其构建核心在于建立一个分层的分类体系,从常见的头部类别对象延伸至长尾稀有实体。数据采集过程注重语言与文化多样性,确保每个问答对均聚焦于原子级的视觉实体指认与命名,从而为模型的世界知识提供细粒度、无歧义的评估基础。
特点
WorldVQA数据集的特点体现在其专注于原子视觉中心世界知识的评估定位上。该数据集通过分层分类法,系统性地涵盖了从广泛认知的常见对象到稀缺的长尾实体的视觉知识谱系,从而能够全面检验模型百科全书式的知识广度。其3,500个问答对经过精心策划,避免了复杂推理的干扰,纯粹测试模型对视觉事实的掌握程度,这为量化模型幻觉率提供了严谨的标准。此外,数据集在设计上兼顾了语言与文化多样性,增强了其在全球化语境下的评估效度与普适性。
使用方法
为便于研究者评估模型在WorldVQA上的性能,该数据集提供了简洁高效的标准化流程。用户首先克隆项目仓库并安装依赖项,随后通过设置环境变量或配置文件来指定API密钥与待评估模型。数据集以TSV文件格式提供,置于项目根目录即可。运行评估脚本后,系统将自动调用指定的多模态大语言模型进行问答,并利用预设的评判模型对答案进行评分,最终结果将保存于指定目录。这一集成化流程极大简化了基准测试的复杂度,使研究人员能够快速、客观地衡量模型在原子视觉知识上的事实性表现。
背景与挑战
背景概述
随着多模态大语言模型在视觉与语言融合任务中的广泛应用,评估其视觉世界知识的真实性与广度成为关键研究议题。WorldVQA基准由MoonshotAI团队于2025年提出,旨在严格衡量模型对原子级视觉中心世界知识的记忆能力,而非推理能力。该数据集通过解耦知识检索与推理过程,专注于评估模型在分层分类体系中对视觉实体的识别与命名能力,覆盖从常见对象到长尾罕见实体的广泛范畴,为前沿模型的视觉事实性设定了新的评估标准。
当前挑战
WorldVQA所针对的核心挑战在于准确评估多模态大语言模型的视觉事实性知识,避免将知识记忆与复杂推理能力混淆。构建过程中的挑战包括设计能够严格分离记忆与推理的评估框架,以及确保数据集中视觉实体分类体系的全面性与平衡性,涵盖从头部常见类别到长尾罕见实体的广泛范围,同时兼顾语言与文化多样性,以反映真实世界知识的复杂性。
常用场景
经典使用场景
在评估多模态大语言模型的视觉世界知识方面,WorldVQA数据集被广泛应用于基准测试场景。该数据集通过精心设计的视觉问答对,系统性地衡量模型对视觉实体的识别与命名能力,覆盖从常见对象到长尾稀有实物的分层分类体系。研究者通常利用该数据集进行模型性能的横向比较,以揭示不同模型在视觉事实性记忆方面的差异,为模型优化提供精确的量化依据。
实际应用
在实际应用中,WorldVQA数据集为多模态人工智能系统的可靠性验证提供了关键工具。企业与研究机构可借助该数据集测试模型在真实场景中的视觉知识准确性,例如在智能教育、内容审核或辅助决策系统中确保模型输出的事实正确性。其跨语言与文化多样性的设计特点,进一步提升了模型在全球应用场景中的适应性与可信度。
衍生相关工作
围绕WorldVQA数据集,学术界衍生出一系列关于多模态模型知识评估的经典研究。这些工作深入探索了视觉知识分层评估方法、幻觉检测机制以及跨文化视觉理解基准的构建。相关成果不仅丰富了多模态评估理论体系,还促进了如知识增强训练、对抗性样本检测等技术方向的发展,为下一代前沿模型的优化提供了方法论支撑。
以上内容由遇见数据集搜集并总结生成



