ZeroBench
收藏arXiv2025-02-14 更新2025-02-18 收录
下载链接:
https://zerobench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
ZeroBench是由多个研究机构和独立研究者共同创建的一个视觉推理数据集,包含100个手工制作的问题和334个子问题。这些问题涵盖了广泛的领域和视觉能力,包含自然和合成的单一及多张图像。数据集的问题是专门设计来挑战当前前沿的大型多模态模型的,要求进行多步骤的推理并精确回答。该数据集适用于评估未来模型在视觉理解方面的发展。
提供机构:
剑桥大学, 阿尔伯塔大学, 独立研究者, 香港大学, 图宾根大学, 牛津大学, 奥本大学
创建时间:
2025-02-14
搜集汇总
数据集介绍

构建方式
ZeroBench数据集的构建方式是通过人工精心设计100个问题,每个问题包含3.3个子问题,共计334个子问题。这些问题的设计涵盖了广泛的领域和视觉能力,并且每个问题都经过严格的审查以确保质量。为了确保问题的难度,研究人员使用了一个四部分的审查流程,包括反馈、初始评估、审查和对抗性过滤。最终,只有那些当前前沿模型无法正确回答的问题被选中,以确保数据集的挑战性。
特点
ZeroBench数据集的特点是轻量级、具有挑战性、多样性和高质量。数据集包含100个手工艺品的问题和334个子问题,涵盖了多个领域和推理类别,包括自然和合成图像。所有问题都经过严格审查,确保了高质量和无噪声。此外,ZeroBench是第一个在发布时对当前前沿模型完全不可能的基准,使其成为评估未来模型的理想选择。
使用方法
ZeroBench数据集的使用方法包括评估模型的性能和进行细粒度的错误分析。研究人员评估了20个前沿LMM基线模型在ZeroBench上的表现,发现所有模型在主问题上的准确率为0%,但在子问题上的准确率不为零,这表明子问题可以区分模型的表现。此外,通过贪婪解码和随机解码两种方式生成模型的回答,并使用pass@1、pass@5和5/5可靠性指标进行评估。
背景与挑战
背景概述
近年来,大型多模态模型(LMMs)在语言任务中展现出强大的能力,但在视觉理解和推理方面却存在明显不足。尽管LMMs在许多流行视觉基准测试中得分很高,但它们的视觉认知能力却不如幼儿或动物。为了解决这个问题,我们需要更困难的基准测试来评估LMMs的视觉理解能力。ZeroBench是一个全新的视觉推理基准测试,旨在挑战当前最前沿的LMMs。它由100个手动策划的问题和334个较简单的问题组成,这些问题都需要复杂的视觉推理和多步推理,涵盖了多个领域和推理类别,包括自然和合成图像。ZeroBench由剑桥大学、阿尔伯塔大学、香港大学等研究人员合作开发,旨在推动视觉理解领域的研究进展。
当前挑战
ZeroBench的挑战主要体现在两个方面。首先,它解决了当前LMMs在视觉理解和推理方面的不足。尽管LMMs在语言任务中表现出色,但在视觉理解和推理方面却存在明显不足。ZeroBench通过设计难以回答的问题,迫使LMMs进行更深入的视觉理解和推理,从而推动LMMs的视觉认知能力的提升。其次,在构建ZeroBench的过程中,研究人员面临着如何设计出足够困难的问题的挑战。随着LMMs能力的不断提升,设计出能够挑战当前最前沿模型的“不可能”问题变得越来越困难。ZeroBench通过对抗性过滤和人工策划,确保了问题的高难度和高质量。
常用场景
经典使用场景
ZeroBench数据集旨在为当代大型多模态模型提供一个极具挑战性的视觉推理基准。该数据集包含100个精心设计的问题和334个较容易的子问题,旨在评估模型在多步视觉推理任务中的表现。ZeroBench的问题涵盖了多个领域和推理类别,包括自然和合成图像,需要模型进行复杂的推理以得出精确的答案。该数据集的评估结果为0%,表明当前前沿模型无法解决这些问题,从而为未来模型的发展提供了一个有意义的挑战。
解决学术问题
ZeroBench数据集解决了当前视觉推理基准难以长期保持有效性的问题。随着模型的快速发展,现有基准的“头空间”(即最大可能分数与当前最佳分数之间的差距)迅速缩小,导致基准逐渐失去区分模型能力的能力。ZeroBench通过设计一系列对当前模型来说“不可能”的问题,为模型的发展提供了更大的空间,并有助于研究人员发现模型的弱点并改进它们。该数据集的意义和影响在于,它推动了视觉推理领域的发展,并为未来模型的设计和评估提供了有价值的参考。
衍生相关工作
ZeroBench数据集的推出对视觉推理领域产生了深远的影响。它不仅为研究人员提供了一个极具挑战性的基准,还激发了更多相关工作的发展。例如,一些研究人员开始探索如何设计更难的问题,以进一步挑战模型的极限。此外,一些研究还关注于如何改进模型的视觉推理能力,以更好地解决实际问题。ZeroBench的出现标志着视觉推理领域的一个重要里程碑,它将推动该领域向更高的水平发展。
以上内容由遇见数据集搜集并总结生成



