UNO-Bench

github2025-10-31 更新2025-11-01 收录

下载链接：

https://github.com/meituan-longcat/UNO-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

UNO-Bench是一个统一的全模态模型基准数据集，旨在有效评估单模态和全模态能力。它包含1250个人工策划的全模态样本（具有98%的跨模态可解性）和2480个增强的单模态样本，涵盖44种任务类型和5种模态组合。该数据集特别适合中国语境下的真实场景，同时自动压缩版本在18个公共基准上保持98%一致性的同时速度提升90%。

UNO-Bench is a unified all-modal model benchmark dataset designed to efficiently evaluate both unimodal and all-modal capabilities. It comprises 1,250 manually curated all-modal samples (with 98% cross-modal interpretability) and 2,480 augmented unimodal samples, covering 44 task types and 5 modality combinations. This dataset is particularly tailored for real-world scenarios in the Chinese context. Additionally, its auto-compressed version achieves a 90% speedup while maintaining 98% consistency across 18 public benchmarks.

创建时间：

2025-10-24

原始信息汇总

UNO-Bench数据集概述

数据集简介

UNO-Bench是一个统一的全模态模型基准，旨在探索单模态与全模态之间的组合规律。该基准在统一能力分类体系下有效评估单模态和全模态能力，涵盖44种任务类型和5种模态组合。

数据集规模与特征

全模态样本：1250个人工标注样本，具有98%的跨模态可解性
单模态样本：2480个增强单模态样本
数据特征：适用于真实世界场景，特别针对中文语境
自动压缩：速度提升90%，在18个公共基准上保持98%的一致性

数据构建流程

材料收集

多样化来源：主要来自众包的真实世界照片和视频，辅以无版权网站和高质量公共数据集
丰富主题：涵盖社会、文化、艺术、生活、文学和科学
现场录制音频：由20多位人类说话者录制的对话，确保丰富的音频特征

质量保证

多阶段质量保证系统：结合自动化工具和人工审核
三重独立检查：初步模型检查、模态消融实验、最终人工检查和修订

评估方法

问题类型：多项选择题和多步骤开放式问题
评估模型：通用评分模型，支持6种问题类型，准确率达95%
评估维度：感知能力和推理能力

主要发现

感知与推理能力：与人类专家相比，Gemini-2.5-Pro在感知方面表现相似，但在推理方面显著落后
组合规律：全模态能力有效性遵循幂律关系，与单模态性能乘积相关
冗余数据：音视频同步的视频数据高度冗余，难以设计同时测试音频和视觉理解的问题

数据来源

主要来源：众包收集的真实世界照片和视频
辅助来源：高质量公共数据集，包括MMVU、LongVideoBench、VideoVista、WorldSense和AV-Odyssey
压缩基准：使用18个公开基准进行视觉和音频数据集压缩

引用信息

bash @misc{chen2025unobench, title={UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models}, author={Chen Chen and ZeYang Hu and Fengjiao Chen and Liya Ma and Jiaxing Liu and Xiaoyu Li and Ziwen Wang and Xuezhi Cao and Xunliang Cai}, year={2025}, eprint={2510.18915}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.18915}, }

搜集汇总

数据集介绍

构建方式

在构建UNO-Bench数据集的过程中，研究团队采用了多阶段的数据采集与标注流程。数据来源主要包括众包平台收集的真实世界照片和视频、无版权网站资源以及高质量公共数据集，确保了素材的多样性和现实性。音频部分由超过20名人类说话者现场录制，充分模拟了真实环境中的语音特征。标注工作由领域专家和经过培训的众包用户共同完成，专家负责保证问题的专业深度，而众包用户则贡献了多样化的视角。为确保数据质量，团队实施了自动化工具与人工审核相结合的三轮检验机制，包括初步模型筛选、模态消融实验验证跨模态可解性，以及最终人工修订，从而构建出涵盖44种任务类型和5种模态组合的高质量数据集。

特点

UNO-Bench数据集展现出多方面的显著特点。其核心优势在于首次实现了单模态与全模态能力的统一评估框架，通过1250个人工精心标注的全模态样本和2480个增强单模态样本，系统覆盖了感知与推理两大能力维度。全模态样本具备98%的跨模态可解性，确保评估结果的有效性。数据集特别注重中国语境下的现实场景应用，同时通过创新的聚类引导分层采样技术对18个公共基准进行压缩，在保持98%排名一致性的前提下将处理速度提升90%。此外，数据集引入了多步骤开放式问题类型，为复杂推理评估提供了更贴近实际的测试环境。

使用方法

该数据集的使用遵循严谨的评估流程。研究人员可通过Hugging Face平台直接获取数据集资源，其中包含的多模态样本支持视觉、听觉和语言模态的联合分析。评估时可采用数据集配套的通用评分模型，该模型支持六种问题类型的自动化评分，在分布外模型和基准测试中达到95%的准确率。对于全模态能力评估，建议重点关注跨模态协同表现，特别是通过幂律组合公式验证单模态性能与全模态能力之间的构成规律。数据集提供的多步骤开放式问题则为深入探究模型复杂推理能力提供了专门工具，使研究者能够系统评估模型在现实场景中的综合表现。

背景与挑战

背景概述

随着多模态大语言模型从单一模态理解向视觉、听觉与语言模态统一的全模态模型演进，2025年美团长期记忆团队提出了UNO-Bench基准数据集。该数据集通过构建涵盖44种任务类型与5种模态组合的评估体系，系统探索单一模态与全模态能力间的组合规律。其核心价值在于首次建立了统一评估框架，通过1250个人工标注的全模态样本与2480个增强型单模态样本，揭示了全模态能力在弱模型中呈现瓶颈效应、在强模型中产生协同促进的演化机制，为全模态智能的发展提供了关键理论支撑。

当前挑战

在全模态模型评估领域，核心挑战在于如何设计能有效检验跨模态协同理解的评估任务。传统音视频数据存在高度冗余性，难以构建需要同时理解双模态信息的有效问题。数据集构建过程中需攻克多模态数据采集的质量控制难题，包括真人语音采集的声学多样性保障、跨模态可解性验证，以及通过聚类引导分层抽样实现18个基准数据集90%压缩比下保持98%排名一致性的技术挑战。

常用场景

经典使用场景

在人工智能多模态融合研究领域，UNO-Bench作为首个统一的全模态模型基准测试工具，通过涵盖44种任务类型和5种模态组合的评估框架，系统性地衡量模型在单模态与全模态理解中的表现。其精心设计的1250个全模态样本与2480个增强单模态样本，尤其适用于探索跨模态协同机制，例如通过多步开放式问题评估复杂推理能力，为研究者揭示模态间组合规律提供了标准化实验环境。

解决学术问题

该数据集通过建立统一的能力分类体系，有效解决了多模态研究中单模态与全模态能力关联性不明确的学术难题。其提出的组合律数学模型（P_Omni = C·(P_Audio × P_Visual)^α + b）以0.9759的决定系数精准刻画了模态性能的幂律关系，揭示了弱模型中的瓶颈效应与强模型中的协同促进现象，为理解模态间相互作用提供了理论依据，推动了多模态智能系统的可解释性研究。

衍生相关工作

该数据集启发了多模态能力评估范式的创新，其提出的多步开放式问题设计已被后续研究广泛采纳。基于组合律发现的模态协同机制，促进了如动态模态加权、跨模态注意力优化等新方法的诞生。在MMMU、ScienceVista等18个公开基准的压缩融合过程中形成的分层采样策略，也为大规模多模态数据集的高效构建提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集