UNICBench

github2026-03-10 更新2026-03-07 收录

下载链接：

https://github.com/rongcg5620/UNICBench

下载链接

链接失效反馈

官方服务：

资源简介：

UNICBench是一个统一的多模态、多级计数基准和评估工具包，包含准确的真实值、确定性数字解析和分层报告。数据集包括5,300张图像（5,508个问答）、872份文档（5,888个问答）和2,069个音频片段（2,905个问答），并附有三级能力分类和难度标签。

UNICBench is a unified multimodal, multi-level counting benchmark and evaluation toolkit featuring accurate real-world data, deterministic numerical parsing and hierarchical reporting. The dataset comprises 5,300 images with 5,508 question-answer pairs, 872 documents with 5,888 question-answer pairs, and 2,069 audio clips with 2,905 question-answer pairs, and is annotated with three-level capability classification and difficulty labels.

创建时间：

2026-02-25

原始信息汇总

UNICBench 数据集概述

数据集基本信息

数据集名称： UNICBench: UNIfied Counting Benchmark for MLLM
官方仓库地址： https://github.com/rongcg5620/UNICBench
数据集状态：部分发布
关联会议： CVPR 2026
论文状态：已被 CVPR 2026 接收

数据集内容与规模

核心目标：为多模态大语言模型提供一个统一的、用于评估计数能力的多模态基准。
数据构成：
- 图像： 5,300 张图像，对应 5,508 个问答对。
- 文档： 872 个文档，对应 5,888 个问答对。
- 音频： 2,069 个音频片段，对应 2,905 个问答对。
标注体系：采用三级能力分类法，并包含难度标签。
数据特点：提供精确的真实值、确定性的数字解析和分层报告。

评估与工具

评估协议：采用标准化协议，包括固定的数据划分、提示词和随机种子，以及模态特定的匹配规则。
评估范围：已在图像、文本和音频模态上评估了 45 个最先进的多模态大语言模型。
公共工具包：提供评估脚本和针对 45 个以上多模态大语言模型的适配器配置（即将发布）。

主要发现

模型在某些基础计数任务上表现良好。
在推理任务和最困难的数据分区上存在显著差距。
揭示了长尾错误，并表明在提升通用计数能力方面仍有巨大改进空间。

访问与资源

数据集下载： https://huggingface.co/datasets/rongchenggang/UNICBench
在线排行榜： https://rongcg5620.github.io/UNICBench-Pages/
论文链接： https://arxiv.org/abs/2603.00595
联系邮箱： rongchenggang554@gmail.com

许可信息

本项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

在计算机视觉与多模态学习领域，构建一个统一的计数基准对于评估模型能力至关重要。UNICBench数据集通过精心设计的数据收集与标注流程构建而成，涵盖了图像、文本和音频三种模态。具体而言，该数据集包含5,300张图像（对应5,508个问答对）、872份文档（对应5,888个问答对）以及2,069段音频剪辑（对应2,905个问答对）。每个样本均按照三层能力分类法进行标注，并附加了难度标签，确保了数据的层次性与多样性。数据划分、提示词及随机种子均采用固定设置，为后续评估提供了标准化的基础。

使用方法

为促进多模态大语言模型在计数能力上的研究，UNICBench提供了清晰的使用路径。研究者可通过HuggingFace平台直接获取数据集，并参照其公开的评估工具包进行模型测试。该工具包预设了固定的数据分割、统一的提示模板以及针对45种以上先进模型的适配配置，确保了评估过程的一致性与复现性。用户可将模型输出与数据集中精确标注的真实答案进行比对，利用内置的确定性解析规则计算性能指标。同时，持续的在线排行榜为性能比较提供了动态参照，加速相关领域的迭代与进步。

背景与挑战

背景概述

随着多模态大语言模型在计算机视觉与自然语言处理领域的蓬勃发展，其核心能力之一的计数任务评估却长期缺乏统一标准。UNICBench数据集由Rong Chenggang等研究人员于2026年创建，并将在CVPR 2026会议上正式发布，旨在构建一个覆盖图像、文本与音频模态的统一计数基准。该数据集通过精心设计的层次化能力分类体系与标准化评估协议，系统性地检验模型在不同难度与场景下的计数性能，为多模态智能系统的能力评估提供了严谨可靠的度量基础，推动了跨模态理解研究向更精细化、可比较的方向演进。

当前挑战

在计数任务领域，模型常面临长尾分布下的复杂推理挑战，例如对遮挡物体、模糊音频或嵌套文本结构的准确计数。UNICBench在构建过程中需克服多模态数据对齐与标注一致性的难题，确保图像、文档与音频片段在计数真值标注上的精确性与可复现性。同时，设计跨模态的统一评估框架需要建立确定性的数值解析规则与难度分层体系，以消除评估偏差，使不同模型之间的性能对比具备科学性与公平性。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，UNICBench数据集为评估多模态大语言模型的计数能力提供了统一基准。该数据集通过涵盖图像、文本和音频三种模态，构建了包含5300张图像、872份文档和2069段音频的丰富语料，并辅以三级能力分类与难度标签。研究者通常利用其标准化协议，包括固定数据划分、提示词和随机种子，对45种前沿MLLM进行跨模态计数性能的横向比较，从而揭示模型在基础计数、推理及复杂场景下的能力差异。

解决学术问题

UNICBench旨在解决多模态计数评估中缺乏统一标准的核心学术问题。以往研究往往局限于单一模态或特定场景，难以全面衡量模型的泛化计数能力。该数据集通过引入确定性数值解析和分层报告机制，提供了精确的基准真值与可复现的评估流程，有效识别了模型在长尾分布和困难样本上的性能瓶颈。其意义在于为多模态计数研究建立了严谨、可比较的测量基础，推动了该领域从分散评估向系统化分析的范式转变。

实际应用

在实际应用层面，UNICBench所评测的计数能力是智能系统理解现实世界的关键组成部分。例如，在医疗影像分析中，模型需准确统计细胞或病灶数量；在文档处理场景下，自动提取表格中的数值信息；于音频监控领域，则可能涉及对特定声音事件的计数。该数据集通过模拟多模态环境下的复杂计数任务，为开发应用于自动驾驶、工业检测、智能办公等领域的可靠多模态系统提供了性能验证工具，助力技术落地前的鲁棒性评估。

数据集最近研究