ZeroBench

github2025-02-24 更新2025-02-18 收录

下载链接：

https://github.com/jonathan-roberts1/zerobench

下载链接

链接失效反馈

官方服务：

资源简介：

ZeroBench是一个针对大型多模态模型（LMMs）的具有挑战性的视觉推理基准。它包含一个主要的问题集，共有100个高质量、手工策划的问题，涵盖多个领域、推理类型和图像类型。ZeroBench的问题被设计和校准为超出当前前沿模型的 capabilities。因此，评估的模型中没有一个是达到了非零的pass@1（使用贪婪解码）或5/5的可靠性分数。

ZeroBench is a challenging visual reasoning benchmark targeting large multimodal models (LMMs). It includes a core question set with 100 high-quality, hand-curated questions spanning multiple domains, reasoning types, and image types. The questions in ZeroBench are designed and calibrated to exceed the capabilities of current state-of-the-art models. As a result, none of the evaluated models have achieved a non-zero pass@1 score (using greedy decoding) or a perfect 5/5 reliability score.

创建时间：

2025-02-14

原始信息汇总

ZeroBench 数据集概述

数据集简介

ZeroBench 是一个针对大型多模态模型（LMMs）的具有挑战性的视觉推理基准。它包含一个主要的问题集，共100个高质量、手动策划的问题，涵盖多个领域、推理类型和图像类型。ZeroBench 的问题被设计和校准为超出当前前沿模型的处理能力。

数据集结构

主要问题集：包含100个问题。
子问题集：包含334个子问题，这些子问题对应于正确回答主要问题所需的推理步骤。

数据集特点

所有问题均设计为当前模型无法正确回答。
子问题相对容易，足以区分模型性能。

数据获取

问题数据：通过 HuggingFace 下载。 python from datasets import load_dataset

主问题

zerobench_ds = load_dataset(jonathan-roberts1/zerobench, split=zerobench)

子问题

zerobench_subquestions_ds = load_dataset(jonathan-roberts1/zerobench, split=zerobench_subquestions)
图像文件：直接下载和解压。 bash cd images wget "https://huggingface.co/datasets/jonathan-roberts1/zerobench/resolve/main/images.zip?download=true" -O images.zip unzip images.zip && rm images.zip

数据集使用

提供了评估主问题 pass@1 准确率的代码示例。 python from datasets import load_dataset from tqdm import tqdm import pandas as pd import re

加载数据集

zerobench_ds = load_dataset(jonathan-roberts1/zerobench, split=zerobench)

结果数据框

output_df = pd.DataFrame(columns=["Question_ID", "Ground_Truth", "Model_Output", "Correct?"])

遍历问题

for idx, item in tqdm(enumerate(zerobench_ds)): # ... 代码省略 ... # 计算准确率 accuracy = output_df["Correct?"].mean() print(f"pass@1 accuracy: {100 * accuracy:.2f}%")

搜集汇总

数据集介绍

构建方式

ZeroBench数据集的构建，旨在评估大型多模态模型在面对极具挑战性的视觉推理任务时的表现。该数据集包含100个高质量、手动精选的问题，覆盖多个领域、推理类型和图像种类。这些问题经过精心设计和调整，以确保其难度超出当前前沿模型的处理能力。

特点

ZeroBench数据集的特点在于其问题的难度和复杂性。每个问题都设计为需要超越当前模型的能力，以保证无模型能在贪心解码下达到非零的pass@1或5/5的可靠性分数。此外，数据集还提供了334个子问题，这些子问题对应于正确回答主问题所需的推理步骤，其难度低于主问题，足以区分模型性能。

使用方法

使用ZeroBench数据集时，用户可以通过HuggingFace平台下载问题和子问题的全部数据。数据集支持Python的直接加载，并提供了详细的加载代码示例。此外，数据集的图像文件也可以直接下载，以便于进行视觉推理任务的评估。对于评估模型在ZeroBench上的表现，提供了一个代码片段，用于计算pass@1准确率。

背景与挑战

背景概述

ZeroBench数据集，作为一项前沿的视觉推理基准，旨在测试大型多模态模型（LMMs）的推理能力。该数据集创建于近年来，由Jonathan Roberts等研究人员开发，包含100个高质量、手工精选的问题，涵盖了众多领域、推理类型和图像类型。ZeroBench的设计目标超出了当前最先进模型的处理能力，其问题的难度确保了现有模型无法达到非零的pass@1（采用贪婪解码）或5/5的可靠性评分，从而在视觉推理领域产生了显著影响。

当前挑战

该数据集面临的挑战主要在于两个方面：一是问题的难度极高，对模型的推理能力提出了前所未有的要求；二是人类验证和质量控制在困难问题集的构建中尤为重要，尽管研究团队进行了多次检查，但数据集中仍可能存在错误。此外，ZeroBench的构建过程中还需要处理如何有效区分模型性能的问题，为此，研究团队发布了334个较容易的子问题，以提供区分模型性能的信号。

常用场景

经典使用场景

ZeroBench 数据集作为大型多模态模型在视觉推理领域的挑战性基准，其经典使用场景在于评估模型对复杂视觉推理任务的处理能力。该数据集包含精心设计的问题，覆盖多个领域和推理类型，旨在测试模型在处理超越当前前沿模型能力范围的任务时的表现。

解决学术问题

该数据集解决了在多模态模型评估中缺乏高难度视觉推理任务的问题，为学术研究提供了深入理解模型在复杂场景下的表现和局限的机会。ZeroBench 的设计有助于推动模型在视觉推理领域的进步，促进了对模型可靠性和泛化能力的研究。

衍生相关工作

ZeroBench 数据集的发布促进了相关领域的研究工作，如模型性能评估标准的制定、视觉推理算法的改进以及质量控制和错误检测方法的探索，进一步推动了多模态模型在视觉推理任务上的研究和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集