WorldVQA

Hugging Face2026-02-03 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/moonshotai/WorldVQA

下载链接

链接失效反馈

官方服务：

资源简介：

WorldVQA 是一个精心设计的基准数据集，旨在评估多模态大语言模型（MLLMs）中的原子视觉世界知识。该数据集包含 3,000 个视觉问答对，涵盖 8 个类别，特别关注语言和文化多样性。原始基准包含 3,500 个视觉问答对和 9 个类别，但由于版权问题，本次发布移除了'人物'类别。WorldVQA 的主要目标是严格衡量模型对视觉事实的记忆能力，而非推理能力，从而为评估当前和下一代前沿模型的百科全书广度和幻觉率建立标准。数据集支持英语和中文，适用于视觉问答任务。

创建时间：

2026-01-27

搜集汇总

数据集介绍

构建方式

在视觉问答领域，WorldVQA数据集的构建旨在精准评估多模态大语言模型的原子化世界知识。该数据集通过精心设计的分类体系，涵盖了从常见头部类别到长尾稀有实体的广泛视觉实体，共包含八个类别、三千个视觉问答对。构建过程中严格区分了视觉知识检索与推理能力，专注于测量模型对视觉事实的记忆程度，并注重语言与文化多样性，以确保评估的纯粹性与广度。

特点

WorldVQA数据集的核心特点在于其专注于原子化视觉中心世界知识的评估，避免了传统基准中知识检索与推理的混淆。数据集结构层次分明，覆盖了广泛的实体分类，包括长尾稀有类别，从而能够全面检验模型的视觉事实性与百科全书式知识广度。此外，数据集在设计上考虑了多语言与文化因素，增强了其跨文化适用性，为前沿模型提供了严格的幻觉率测试标准。

使用方法

使用WorldVQA数据集时，研究者可将其作为基准来评估多模态大语言模型在视觉事实性方面的表现。数据集以TSV格式提供，包含训练分割，可直接用于模型训练与测试。通过分析模型在八个类别上的准确率，能够量化其在视觉知识记忆上的能力差距，并为改进模型的知识广度与减少幻觉提供实证依据。具体实施可参考相关论文与代码库，以复现或扩展评估流程。

背景与挑战

背景概述

随着多模态大语言模型的快速发展，评估其视觉世界知识的真实性成为关键研究议题。WorldVQA基准由Moonshot AI团队于2026年提出，旨在严格衡量模型对视觉实体的事实性记忆能力，而非推理过程。该数据集通过解耦知识检索与推理，聚焦于评估模型在分层分类体系下对从常见到长尾视觉实体的指称与命名能力，为多模态模型的百科全书式知识广度与幻觉率设立了新的评估标准，推动了视觉事实性研究的前沿进展。

当前挑战

WorldVQA致力于解决多模态大语言模型中视觉事实性评估的核心挑战，即如何将纯粹的知识记忆能力从复杂的视觉推理中剥离出来，以准确量化模型的幻觉现象。在构建过程中，面临的主要挑战包括设计覆盖从头部类别到长尾稀有实体的分层分类体系，确保语言与文化多样性，以及处理因版权与模型系统性拒绝行为导致的特定类别数据缺失问题，这些因素共同增加了数据标注与基准构建的复杂性。

常用场景

经典使用场景

在评估多模态大语言模型的视觉知识基准测试中，WorldVQA数据集被广泛应用于衡量模型对原子级视觉世界知识的记忆能力。该数据集通过精心设计的视觉问答对，覆盖从常见头部类别到长尾稀有实体的分层分类体系，为研究者提供了一个标准化的测试平台，以严格检验模型在视觉实体识别与命名方面的基础性能。

衍生相关工作

围绕WorldVQA数据集，已衍生出多项经典研究工作，包括基于其分层分类体系的模型能力细粒度分析、视觉幻觉检测方法的改进，以及针对长尾视觉实体的知识增强技术。这些工作不仅深化了对多模态模型知识局限的理解，也为后续基准的构建与模型训练策略提供了重要参考。

数据集最近研究