kangaroo_math_benchmark

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/DFKI-SLT/kangaroo_math_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Känguruh Wettbewerb数据集是一个基于德国官方数学竞赛“Känguru der Mathematik”（1998-2025年）材料构建的德语基准数据集，旨在评估课程对齐的德语数学推理能力，特别强调视觉基础（如图表、几何图形和空间排列），并支持按年份、年级组、难度、数学子领域和模态进行受控分析。数据集包含3,557个单项选择题实例，每个问题提供五个选项（A-E），覆盖3至13年级。每个实例包含以下字段：图像（PNG裁剪）、问题文本、正确答案、年份、年级、任务ID、难度等级（A/B/C）、数学类别（算术、几何、代数、概率、未知）以及标识是否为纯文本问题的布尔值。数据集中61%的问题为纯文本，39%的问题需要视觉信息才能解答。难度分布均匀，A、B、C三个等级各约占三分之一。数据集适用于视觉问答任务，特别是用于评估视觉语言模型在数学推理中的模态差距。

The Känguruh Wettbewerb dataset is a German benchmark dataset constructed from materials of the official German mathematics competition Känguru der Mathematik (1998-2025). It aims to evaluate curriculum-aligned German mathematical reasoning skills, with a particular emphasis on visual grounding (such as charts, geometric figures, and spatial arrangements), and supports controlled analysis by year, grade group, difficulty, mathematical subfield, and modality. The dataset contains 3,557 multiple-choice question instances, each offering five options (A-E), covering grades 3 to 13. Each instance includes the following fields: image (PNG crop), question text, correct answer, year, grade, task ID, difficulty level (A/B/C), mathematical category (arithmetic, geometry, algebra, probability, unknown), and a boolean flag indicating whether it is a text-only problem. In the dataset, 61% of the questions are text-only, while 39% require visual information to be solved. The difficulty distribution is even, with levels A, B, and C each accounting for approximately one-third. The dataset is suitable for visual question answering tasks, especially for evaluating the modality gap of vision-language models in mathematical reasoning.

创建时间：

2026-06-29

原始信息汇总

数据集名称

Känguruh Wettbewerb Dataset

数据集地址

https://huggingface.co/datasets/DFKI-SLT/kangaroo_math_benchmark

任务类型

视觉问答（Visual Question Answering）

语言

德语

数据来源

来自官方《Känguru der Mathematik》竞赛材料（1998–2025年），每个实例为一道五选一（A-E）选择题，覆盖3至13年级。

数据集规模

总任务数：3,557
年份范围：1998–2025
年级范围：3–13（分组）
源PDF页数：140份PDF / 560页
答案格式：5选1多选题（A - E）

数据划分

训练集：3,557个样本，文件大小约158.22 MB

数据特征

特征名	类型	说明
image	image	PNG裁剪图像
question	string	问题文本
ground_truth	string	正确答案选项
is_text_only	bool	是否为纯文本任务
year	int32	任务年份
class	string	目标年级分组
task_id	string	任务ID
math_category	string	数学子领域（算术、几何、代数、概率、未知）
difficulty	string	难度等级（A、B、C）

模态分布

纯文本任务：61%
必需视觉任务：39%

难度分布

A（简单）：32.9%
B（中等）：33.3%
C（困难）：33.8%

处理流程

任务定位与裁剪
人工筛查
答案对齐
结构化字段与派生标签

引用

@inproceedings{hug2026kangaroobench, author = {Hug, Dennis and Wolf, Rene and Thomas, Philippe}, title = {KangarooBench: A Native German Benchmark for Evaluating the Modality Gap in Visual Mathematics}, booktitle = {Conference and Labs of the Evaluation Forum (CLEF 2026)}, year = {2026}, note = {To appear} }

搜集汇总

数据集介绍

构建方式

该数据集源自德国官方《Känguru der Mathematik》数学竞赛材料，覆盖1998年至2025年的真题。构建过程采用四步流水线：首先进行任务定位与图像裁剪，将原始PDF中的题目区域精确提取；随后通过人工筛查确保数据质量；接着将题目与官方答案对齐；最后生成结构化字段与派生标签，包括图像、题目、选项、正确答案、年份、年级、难度等级、数学子领域及模态标识等。数据集共包含3557道多选题，每个题目提供五个选项（A至E），涵盖3至13年级的课程内容。

特点

数据集的核心特点在于其独特的双语视觉数学推理评估能力。题目均以德语呈现，包含大量图表、几何图形和空间排列等视觉元素，39%的题目必须依赖图像才能解答，而61%为纯文字题。难度分布均匀（A/B/C各占约三分之一），覆盖算术、几何、代数、概率等数学子领域。每个实例均附带年份、年级分组、难度等级和数学类别等细粒度元数据，便于开展模态对比分析。

使用方法

该数据集适用于视觉语言模型的评估与训练，特别是针对德语数学推理能力的测试。使用者可直接加载预处理的PNG图像及对应文本，通过5选1的多项选择格式进行模型推理。建议按年份、年级或难度分层抽样，以分析模型在不同维度上的表现差异。数据集以HuggingFace格式提供，支持标准数据加载器，便于集成到现有评估流程中。引用时请使用提供的学术文献格式。

背景与挑战

背景概述

多模态数学推理是视觉语言模型（VLM）发展的关键领域，旨在模拟人类在解析涉及图形、图表与空间关系的数学问题时融合视觉与文本信息的能力。在此背景下，由Hug、Wolf与Thomas等人创建的KangarooBench数据集应运而生，该基准源于1998年至2025年间德国官方“Känguru der Mathematik”竞赛材料，收录了3至13年级的3557道选择题，涵盖算术、几何、代数、概率等子领域。该数据集的核心研究问题在于系统评估VLM在课程对齐的数学推理中对视觉信息的依赖程度，并支撑按年份、年级、难度、数学子域及模态进行精细化分析。作为首个原生德语多模态数学基准，KangarooBench为填补跨语言数学推理评估的空白、推动教育场景下VLM的公平性研究提供了重要工具。

当前挑战

该数据集面临的挑战主要存在于两个层面。在领域问题层面，现有VLM常将图像视为次要信息，甚至忽略视觉输入进行推理，导致在多模态数学任务中出现文本捷径与感官鸿沟，KangarooBench通过设计39%的视觉必要样本（如几何图形、空间布局），旨在揭示模型对视觉线索的真实依赖程度。在构建层面，原始PDF竞赛材料需经由任务定位裁剪、人工筛查、答案对齐及结构化标注四步流程处理，其中从非结构化文档中精确提取包含图表与多选项的独立问题、保证跨年跨度下学科分类的一致性、以及平衡A/B/C三级难度的分布比例，均为确保基准有效性而必须克服的技术挑战。

常用场景

经典使用场景

Kangaroo Math Benchmark数据集源自德国官方“袋鼠数学竞赛”历年真题，汇集了1998年至2025年间的3,557道数学题目，覆盖3至13年级的学生群体。该数据集最经典的使用场景在于评估视觉语言模型在数学推理任务中的表现，尤其是处理融合了图形、几何图示和空间排布等视觉信息的数学问题时，能够精准衡量模型在跨模态理解与对齐上的能力。通过控制年份、年级、难度等元数据，研究者可以系统性地剖析模型在不同数学子领域和文本或视觉主导题型下的表现差异。

解决学术问题

该数据集有效填补了多模态数学推理领域缺乏高质量、课程对齐的德语基准的空白。它解决的学术核心问题包括：如何量化视觉语言模型在数学推理中因视觉信息缺失而产生的性能差距，以及不同难度级别和数学子领域对模型推理能力的差异化影响。通过提供明确的视觉必要性与纯文本题型的分层标注，该数据集为研究者深入探讨多模态学习的机制瓶颈、模态融合策略的优劣以及教育场景下AI的数学逻辑能力评估提供了标准化的评测平台，推动了多模态理解与教育评估交叉领域的发展。

衍生相关工作

围绕Kangaroo Math Benchmark，衍生出一系列重要的研究工作。研究人员基于该数据集构建了多模态数学推理的基准评测框架，提出了针对视觉语言模型在数学场景下模态差距的系统分析方法。相关经典工作包括：设计面向德语数学题目的跨模态理解新指标，探索视觉与文本特征的交互对齐策略，以及开发适用于教育场景的难度感知推理模型。此外，该数据集还催生了多模态预训练模型在数学任务上的微调与迁移学习研究，推动了融合课程知识与社会学龄特征的高级AI教育评测体系的发展。

以上内容由遇见数据集搜集并总结生成