ZeroBench
收藏ZeroBench 数据集概述
数据集简介
ZeroBench 是一个针对大型多模态模型(LMMs)的具有挑战性的视觉推理基准。它包含一个主要的问题集,共100个高质量、手动策划的问题,涵盖多个领域、推理类型和图像类型。ZeroBench 的问题被设计和校准为超出当前前沿模型的处理能力。
数据集结构
- 主要问题集:包含100个问题。
- 子问题集:包含334个子问题,这些子问题对应于正确回答主要问题所需的推理步骤。
数据集特点
- 所有问题均设计为当前模型无法正确回答。
- 子问题相对容易,足以区分模型性能。
数据获取
-
问题数据:通过 HuggingFace 下载。 python from datasets import load_dataset
主问题
zerobench_ds = load_dataset(jonathan-roberts1/zerobench, split=zerobench)
子问题
zerobench_subquestions_ds = load_dataset(jonathan-roberts1/zerobench, split=zerobench_subquestions)
-
图像文件:直接下载和解压。 bash cd images wget "https://huggingface.co/datasets/jonathan-roberts1/zerobench/resolve/main/images.zip?download=true" -O images.zip unzip images.zip && rm images.zip
数据集使用
- 提供了评估主问题 pass@1 准确率的代码示例。 python from datasets import load_dataset from tqdm import tqdm import pandas as pd import re
加载数据集
zerobench_ds = load_dataset(jonathan-roberts1/zerobench, split=zerobench)
结果数据框
output_df = pd.DataFrame(columns=["Question_ID", "Ground_Truth", "Model_Output", "Correct?"])
遍历问题
for idx, item in tqdm(enumerate(zerobench_ds)): # ... 代码省略 ... # 计算准确率 accuracy = output_df["Correct?"].mean() print(f"pass@1 accuracy: {100 * accuracy:.2f}%")




