WorldSense

github2025-02-08 更新2025-02-10 收录

下载链接：

https://github.com/JaaackHongggg/WorldSense

下载链接

链接失效反馈

官方服务：

资源简介：

WorldSense是一个评估多模态语言模型的多模态视频理解能力的基准，包含1,662个音频视觉同步视频，分为8个主要领域和67个细粒度子类别，以及跨26个不同任务的3,172个多选问答对。

WorldSense is a benchmark designed to evaluate the multimodal video understanding capabilities of multimodal language models. It contains 1,662 synchronized audio-visual videos, which are grouped into 8 major domains and 67 fine-grained subcategories, alongside 3,172 multiple-choice question-answer pairs across 26 distinct tasks.

创建时间：

2025-02-01

原始信息汇总

WorldSense 数据集概述

数据集简介

名称：WorldSense
简介：WorldSense 是首个用于评估多模态语言模型（MLLMs）现实世界全模态理解能力的基准。
特点：
- 全模态协作：评价任务设计注重音频和视频的紧密结合，要求模型有效利用全模态的协同感知。
- 视频和任务多样性：包含 1,662 个音频视频同步视频，系统分类为 8 个主要领域和 67 个细粒度子类别，涵盖广泛场景；3,172 个多选问答对，涵盖 26 个不同任务，以实现全面评估。
- 高质量标注：所有问答对均由 80 位专家标注员经过多轮修正确保质量。

数据集构成

视频数量：1,662 个音频视频同步视频
任务类型：26 个不同任务，包含 3,172 个多选问答对

数据集获取

下载地址：Hugging Face Dataset

评估流程

评估工具：使用 VLMEvalKit 进行模型评估。
排行榜提交：联系 jaaackhong@gmail.com 添加模型至排行榜。

实验结果

当前最佳准确率：48%

引用信息

bibtex @article{hong2025worldsenseevaluatingrealworldomnimodal, title={WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs}, author={Jack Hong and Shilin Yan and Jiayin Cai and Xiaolong Jiang and Yao Hu and Weidi Xie}, year={2025}, eprint={2502.04326}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.04326}, }

搜集汇总

数据集介绍

构建方式

WorldSense数据集的构建采取了对多模态视频内容的深入分析，综合了视觉、音频和文本输入，形成了包含1,662个音频与视频同步的视频，这些视频被系统性地分为8个主要领域和67个细粒度子类别，涵盖了广泛的场景。此外，数据集还包含3,172个多选问答对，跨越26个不同的任务，所有问答对均经过80名专家标注者的多轮校正，确保了标注的高质量。

使用方法

使用WorldSense数据集进行评估时，可以通过VLMEvalkit轻松进行多模态语言模型的评测。用户可以从指定链接下载数据集，并根据VLMEvalkit提供的指南进行评估。若希望模型加入排行榜，需联系项目维护者进行登记。

背景与挑战

背景概述

WorldSense数据集，由Jack Hong等研究人员于2025年创建，隶属于Xiaohongshu Inc.与上海交通大学。该数据集旨在评估多模态大型语言模型（MLLMs）对现实世界多模态理解的能力。它涵盖了视觉、音频和文本输入，包含1662个音频视觉同步视频，分类为8个主要领域和67个细粒度子类别，并配备3172个多选问答对，跨越26个不同任务，所有问答对均经过80位专家标注，经过多轮校正以确保高质量。WorldSense的发布，为多模态理解领域提供了一个全新的评估平台，对相关研究具有重要的推动作用。

当前挑战

该数据集在构建和应用过程中面临的挑战包括：1) 现有模型在理解现实世界场景方面存在显著困难，最佳准确率仅为48%，这凸显了多模态理解在现实应用中的局限性；2) 多模态协同感知的设计要求模型能够有效利用各种模态之间的协同作用，这对模型的泛化能力和处理复杂任务的能力提出了更高的要求。

常用场景

经典使用场景

在当前人工智能研究领域，多模态语言模型（MLLMs）对现实世界场景的全面理解能力评估至关重要。WorldSense作为首个针对现实世界全模态理解的评估基准，其经典使用场景在于为MLLMs提供了一个包含视觉、音频和文本输入的复合型任务环境。通过这一平台，研究者能够评估模型在处理多模态信息耦合任务时的表现，进而推动多模态理解技术的发展。

解决学术问题

WorldSense解决了传统数据集在评估多模态模型时模态融合程度不足的问题。它通过精心设计的任务，促使模型在处理音频和视频信息时实现紧密融合，从而提高了模型在理解复杂现实世界场景方面的准确性。此外，该数据集涵盖了多样化的视频和任务类型，有助于研究者发现并解决模型在不同领域和子领域中存在的理解偏差，为学术研究提供了深入的分析视角。

实际应用

在实际应用中，WorldSense的应用场景广泛，包括但不限于智能交互系统、视频内容分析、多模态信息检索等领域。它为开发能够理解并响应复杂现实世界情境的人工智能系统提供了测试平台，有助于提升人工智能在多模态数据处理方面的实用性和可靠性。

数据集最近研究