EGE_Math_Solutions_Assessment_Benchmark

Hugging Face2025-08-01 更新2025-08-02 收录

下载链接：

https://huggingface.co/datasets/Karifannaa/EGE_Math_Solutions_Assessment_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含俄罗斯统一国家考试（EGE）数学问题的学生解答，以及用于自动化评估系统基准测试的参考分数。数据集包括带有正确答案的学生解答图像、没有答案的学生解答图像和每个问题的真实解答图像。

创建时间：

2025-07-30

原始信息汇总

EGE Math Solutions Assessment Benchmark 数据集概述

数据集基本信息

任务类别: 图像文本到文本 (image-text-to-text)
许可证: 其他 (other)
语言: 俄语 (ru)
标签: 数学 (mathematics)、教育 (education)、视觉语言模型 (vlm)、评估 (assessment)、俄语 (russian)、手写 (handwritten)

数据集描述

内容: 包含俄罗斯统一国家考试(EGE)数学题目的学生解答，带有参考分数，用于自动化评估系统的基准测试。
图像类型:
- 显示正确答案的学生解答 (152张)
- 不显示答案的学生解答 (152张)
- 每个问题的真实/参考解答 (144张)

数据集统计

总示例数: 122
总图像数: 448
任务类型数: 7
分数范围: 0-4分

任务类型分布

任务类型	数量
金融数学	15
对数不等式	19
数论问题	16
平面几何问题	17
参数问题	16
立体几何问题	18
三角方程	21

分数分布

分数	数量	百分比
0	28	23.0%
1	40	32.8%
2	35	28.7%
3	11	9.0%
4	8	6.6%

数据集结构

每个示例包含以下字段:

solution_id: 解决方案的唯一标识符
task_id: 任务类型ID (13-19)
example_id: 特定示例标识符
task_type: 任务类型的英文描述
score: 参考分数 (0-4)
parts_count: 解决方案中的部分数量
images_with_answer: 包含正确答案的学生解答图像列表 (PIL Image对象)
images_without_answer: 仅包含学生解答的图像列表 (PIL Image对象)
images_with_true_solution: 包含真实解决方案的任务图像列表 (PIL Image对象)

使用方式

python from datasets import load_dataset

加载数据集

dataset = load_dataset(Karifannaa/EGE_Math_Solutions_Assessment_Benchmark)

访问示例

example = dataset[train][0] print(f"Solution ID: {example[solution_id]}") print(f"Task Type: {example[task_type]}") print(f"Score: {example[score]}")

查看图像 (所有图像均为PIL Image对象)

print(f"Images with answer: {len(example[images_with_answer])}") print(f"Images without answer: {len(example[images_without_answer])}") print(f"Images with true solution: {len(example[images_with_true_solution])}")

显示图像

if example[images_with_answer]: img = example[images_with_answer][0] img.show()

图像访问

所有图像均存储为PIL Image对象，可直接访问: python

获取第一个示例

example = dataset[train][0]

访问不同类型的图像

student_solution_with_answer = example[images_with_answer][0] student_solution_without_answer = example[images_without_answer][0] true_solution = example[images_with_true_solution][0]

图像为标准PIL Image对象

print(f"Image size: {student_solution_with_answer.size}") print(f"Image mode: {student_solution_with_answer.mode}")

保存图像

student_solution_with_answer.save("solution.png")

许可证

本数据集仅供研究和教育用途。

引用

Plain Text:

Khrulev, R. (2025). CHECK-MAT: Checking Hand-Written Mathematical Answers for the Russian Unified State Exam. arXiv preprint arXiv:2507.22958. https://arxiv.org/abs/2507.22958

BibTeX: bibtex @misc{khrulev2025checkmatcheckinghandwrittenmathematical, title={CHECK-MAT: Checking Hand-Written Mathematical Answers for the Russian Unified State Exam}, author={Ruslan Khrulev}, year={2025}, eprint={2507.22958}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.22958}, }

搜集汇总

数据集介绍

构建方式

EGE数学解题评估基准数据集源自俄罗斯统一国家考试(EGE)的真实数学解题场景，通过系统化采集学生手写解答构建而成。研究团队精心设计了数据采集方案，将每道题目的解答分为三种形式：包含正确答案的学生解答、不含答案的盲评版本，以及标准参考答案。数据集共收录122个样本案例，涵盖金融数学、对数不等式等7类数学题型，每类题型均保持合理比例分布。所有图像数据均经过专业处理，确保以PIL图像对象格式规范存储。

特点

该数据集最显著的特征在于其多模态数据结构和精细的评分体系。448张手写解题图像不仅包含原始解题过程，还提供标准答案对照版本，为视觉语言模型评估创造了理想条件。评分标准采用0-4分的五级制，真实反映了23%至6.6%的梯度分布。每个样本配备唯一标识符和题型分类标签，其中平面几何题和三角方程题占比最高，这种专业化的题型配置使其特别适合数学自动评分系统的开发与验证。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，调用load_dataset函数即可获取结构化数据。每个样本包含solution_id等元数据字段和三类图像数组，开发者能便捷地访问带答案图像、盲评图像及标准答案图像。数据集中的PIL图像对象支持常规操作，包括尺寸查看、模式检测和本地存储。典型应用场景包括：通过对比不同版本图像开发自动评分算法，或利用真实分数分布训练数学解题质量评估模型。

背景与挑战

背景概述

EGE数学解答评估基准数据集由Ruslan Khrulev于2025年提出，旨在为俄罗斯统一国家考试（EGE）数学题目的自动评分系统提供标准化评估工具。该数据集收录了122个学生手写解答样本，涵盖金融数学、对数不等式、数论问题等7类数学题型，每个解答均配有标准答案和专家评分。作为计算机视觉与教育评估交叉领域的重要资源，该数据集为开发基于视觉语言模型（VLM）的自动阅卷系统提供了关键实验数据，尤其对俄语数学教育场景下的答案理解与评分算法研究具有独特价值。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，手写数学符号的多变性和解题步骤的语义解析要求模型同时具备视觉识别与数学逻辑理解能力，而俄语特有的数学表达规范进一步增加了跨语言模型的应用难度；在构建过程中，需平衡数据匿名性与评分准确性，通过设计无答案版本实现盲评，同时确保448幅手写图像的质量统一性，这对扫描分辨率、墨迹清晰度等采集标准提出了严格要求。不同题型间样本分布的不均衡性（如三角函数题占比17.2%而金融数学题仅12.3%）也为模型泛化性能评估带来挑战。

常用场景

经典使用场景

在数学教育评估领域，EGE_Math_Solutions_Assessment_Benchmark数据集为研究者提供了丰富的学生手写数学解题样本。该数据集最经典的使用场景在于开发和验证自动评分系统，尤其是针对俄罗斯统一国家考试（EGE）中的数学题目。通过包含带答案和不带答案的学生解题图像，以及标准参考答案，研究者能够全面评估自动评分算法在不同条件下的表现。

解决学术问题

该数据集有效解决了数学教育评估中的关键学术问题，特别是手写数学解题的自动评分难题。通过提供真实的学生解题样本和标准评分，数据集为研究者建立了可靠的基准，用于验证视觉语言模型（VLM）在数学解题评估中的准确性和鲁棒性。这不仅推动了自动评分技术的发展，也为数学教育评估的客观性和一致性提供了科学依据。

衍生相关工作

围绕该数据集，研究者们已经开展了一系列经典工作。例如，基于该数据集开发的CHECK-MAT系统，专注于俄罗斯统一国家考试中手写数学答案的自动评分。此外，该数据集还激发了多模态学习模型在数学教育中的应用研究，推动了视觉语言模型在复杂数学符号识别和解题步骤评估中的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集