UNO-Bench

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/meituan-longcat/UNO-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

UNO-Bench是一个高质量、统一的多模态模型基准，旨在有效评估uni-modal和omni-modal能力。它包括1250个多模态样本和2480个增强的单模态样本，适用于中国真实世界场景，并具有高效的数据处理能力。

创建时间：

2025-10-28

原始信息汇总

UNO-Bench数据集概述

数据集基本信息

许可证: MIT
支持语言: 中文、英文
标签: 多模态、视觉问答、音频问答

数据集简介

UNO-Bench是一个统一的全模态模型基准，旨在探索单模态与全模态之间的组合规律。该基准在统一能力分类体系下有效评估单模态和全模态能力，涵盖44种任务类型和5种模态组合。

数据集规模与质量

全模态样本: 1250个人工精心策划的样本，具有98%的跨模态可解性
单模态样本: 2480个增强的单模态样本
数据质量: 人工生成的数据集非常适合现实场景，特别是在中文语境下
自动压缩: 提供90%的速度提升，并在18个公共基准上保持98%的一致性

数据集特点

问题类型: 除了传统的多项选择题外，还提出了创新的多步开放式问题格式来评估复杂推理
评估模型: 包含通用评分模型，支持6种问题类型的自动评估，准确率达95%
模态组合: 涵盖视觉、音频和语言模态的统一评估

数据集构建

材料收集

多样化来源: 主要来自众包的真实世界照片和视频，辅以无版权网站和高质量公共数据集
丰富主题: 涵盖社会、文化、艺术、生活、文学和科学
现场录制音频: 由20多名人类说话者录制的对话，确保丰富的音频特征

质量保证

多阶段质量保证系统: 结合自动化工具和人工审查
三重独立检查: 初步模型检查、模态消融实验、最终人工检查和修订

数据压缩

采用聚类引导的分层抽样方法压缩18个公共基准的规模

主要贡献

提出首个统一的全模态模型基准UNO-Bench
建立高质量数据集流水线
引入多步开放式问题用于复杂推理评估

关键发现

感知能力与推理能力: 与人类专家相比，Gemini-2.5-Pro在感知方面表现相似，但在推理方面显著落后
组合规律: 全模态能力效果与单模态性能乘积遵循幂律关系
冗余同步视听视频数据: 音频-视觉同步视频数据高度冗余

数据集内容

能力维度: 系统分为感知和推理两个主要维度
任务类型: 44种任务类型
模态组合: 5种模态组合

引用信息

bibtex @misc{chen2025unobench, title={UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models}, author={Chen Chen and ZeYang Hu and Fengjiao Chen and Liya Ma and Jiaxing Liu and Xiaoyu Li and Ziwen Wang and Xuezhi Cao and Xunliang Cai}, year={2025}, eprint={2510.18915}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.18915}, }

数据来源

主要材料通过众包收集真实世界照片和视频，小部分来自高质量公共数据集。使用18个公开可用基准压缩视觉和音频数据集。

致谢

感谢LongCat Team EVA委员会在整个工作过程中提供的宝贵帮助、指导和建议。

搜集汇总

数据集介绍

构建方式

在构建UNO-Bench数据集的过程中，研究团队采用了严谨的多阶段数据采集与标注流程。数据来源主要涵盖真实世界场景的众包照片和视频，辅以版权免费网站及高质量公开数据集，确保了素材的多样性和真实性。标注工作由具备跨模态理解经验的人类专家和具有多模态模型使用背景的众包用户共同完成，通过三阶段质量检验体系——包括初步模型筛选、模态消融实验和最终人工复核——保证了1250个全模态样本达到98%的跨模态可解性，同时2480个单模态样本经过集群引导分层采样方法压缩后，在18个公开基准上保持了98%的排名一致性。

特点

该数据集最显著的特征在于其统一的能力评估框架，覆盖44种任务类型和5种模态组合，实现了对单模态与全模态能力的协同测评。数据内容特别注重中国语境下的现实场景适配性，通过20多位人类说话者录制的真实对话音频，呈现出丰富的声学特征多样性。创新性地引入多步骤开放式问题形式，有效评估模型的复杂推理能力，而通用评分模型支持6种问题类型的自动化评估，准确率高达95%。数据集验证了全模态能力与单模态性能之间的组合规律，展现出对弱模型的瓶颈效应和对强模型的协同促进作用。

使用方法

使用UNO-Bench数据集时，研究者可通过HuggingFace平台直接获取完整数据资源。数据集按照感知与推理两大能力维度进行系统分类，支持多模态大语言模型在视觉问答和音频问答任务上的性能评估。用户可利用内置的通用评分模型实现自动化测评，该模型经过严格验证在分布外模型和基准测试中保持95%的评估准确率。对于全模态理解研究，建议重点关注音频-视觉协同理解任务的设计，因为标准视频中的同步视听数据存在高度冗余性，需要特别设计同时测试听觉和视觉理解的评估方案。

背景与挑战

背景概述

随着多模态大语言模型从单模态理解向视觉、音频与语言模态统一的全模态模型演进，美团长猫团队于2025年提出UNO-Bench基准数据集。该数据集旨在系统探索单模态与全模态能力间的组合规律，涵盖44种任务类型与5种模态组合，通过1250个人工标注的全模态样本和2480个增强单模态样本构建评估体系。其创新性体现在首次建立统一能力分类框架，为全模态智能体的演进提供了标准化评估范本，显著推动了跨模态认知机理的研究进程。

当前挑战

全模态模型评估面临双重挑战：在领域问题层面，需突破传统多模态评估中模态割裂的局限，解决跨模态协同推理的量化难题，特别是针对音视频同步数据冗余导致的模态协作效能衰减问题；在构建过程中，需平衡数据质量与规模矛盾，通过人工精标与自动压缩技术实现98%跨模态可解性验证，同时克服多源素材整合、多阶段质量校验以及中英文混合语境下的语义一致性维护等工程挑战。

常用场景

经典使用场景

在人工智能多模态研究领域，UNO-Bench作为首个统一的全模态模型基准测试工具，其经典应用场景聚焦于系统评估模型在视觉、听觉与语言等多模态融合任务中的综合表现。该数据集通过涵盖44种任务类型与5种模态组合的1250个人工标注全模态样本，为研究者提供了探索单模态与全模态能力关联性的标准化实验平台，尤其在中文语境下的真实场景中展现出卓越的适应性。

解决学术问题

该数据集通过构建统一的能力评估体系，有效解决了多模态人工智能研究中长期存在的模态能力关联性量化难题。其提出的组合定律数学模型（P_Omni = C·(P_Audio × P_Visual)^α + b）以0.9759的决定系数精准揭示了全模态性能与单模态能力间的幂律关系，这不仅解释了弱模型的瓶颈效应与强模型的协同促进现象，更为多模态模型的智能演进提供了理论依据与方法论支撑。

衍生相关工作

基于该数据集衍生的经典研究主要体现在三个维度：其创新的多步开放式问题格式推动了复杂推理评估范式的革新；开发的支持6类问题自动评分的通用评分模型在跨域测试中达到95%准确率；此外，通过聚类引导分层采样方法对18个公共基准数据集进行压缩的技术路线，为后续大规模多模态基准构建提供了可复现的标准化流程，持续引领着全模态模型评估体系的发展方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集