ROMB-1.0

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/d0rj/ROMB-1.0

下载链接

链接失效反馈

官方服务：

资源简介：

俄罗斯奥数数学基准数据集（ROMB）是一个俄语单语言数据集，包含2552个数学问题的文本描述。这些问题包括几何、逻辑和其他类型的数学问题。数据集提供了结构化的答案和多种类型的评估方式，适用于评估数学问题解答模型的质量。

创建时间：

2025-08-16

原始信息汇总

俄罗斯奥林匹克数学基准数据集（ROMB-1.0）概述

数据集基本信息

语言：俄语
许可协议：MIT
多语言性：单语言
数据集名称：Russian Olympiad Math Benchmark (ROMB)
标签：数学、基准测试、学校、bibigon

数据规模与结构

总样本量：2552个数学问题
测试集大小：3,343,995字节
下载大小：1,158,521字节
特征列：15个结构化字段

任务类型分布

几何问题：192个
逻辑问题：644个
算术问题：1,716个

数据特征描述

核心字段

id：唯一标识符（int64）
task_text：问题文本（string）
answer_text：原始答案文本（string）
correct_answer：JSON格式正确答案（需反序列化）
date：奥林匹克竞赛日期（自由格式）
olymp_name：奥林匹克竞赛名称
grade：目标年级（可能为区间）
description：包含名称、年级和日期的完整描述
source：问题来源链接

答案验证相关字段

answer_type：Python类型格式的答案类型
check_type：答案检查类型（em/um/om/um[om]/um[um]/um_f/Am/am/字典/custom）
check_function：自定义检查函数（Python代码）
task_type：问题类型（geometry/logic/arith）
task_note：答案格式说明注释

评估指标

主要指标：Pass@1
加权评分：按年级加权（1年级=1分，5年级=5分，7-9年级=8分）
细分指标：算术通过率、逻辑通过率、几何通过率

使用方式

数据加载

python import datasets ds = datasets.load_dataset("d0rj/ROMB-1.0", split="test")

评估代码

参见：https://huggingface.co/spaces/d0rj/romb-leaderboard 的Evaluate部分

注意事项

数据集处于测试阶段，可能存在错误
正确答案需使用json.loads反序列化
支持结构化输出生成
提供多种答案验证机制

数据来源

所有问题均来自俄罗斯各类奥林匹克数学竞赛，包含详细的来源标注和元数据信息。

搜集汇总

数据集介绍

构建方式

ROMB-1.0数据集通过系统收集俄罗斯数学奥林匹克竞赛题目构建而成，涵盖2552道高质量数学问题。构建过程采用结构化数据采集方法，每道题目均标注了原始文本、标准答案、题目类型及验证机制。数据来源经过严格筛选，确保题目来自权威数学竞赛，并保持原始题目的完整性和准确性。

特点

该数据集具有显著的多样性特征，包含几何问题192道、逻辑问题644道及其他算术问题1716道。每道题目配备多维度元数据，包括答案类型标注、验证函数定义及题目难度分级。特别设计了灵活的回答验证系统，支持精确匹配、无序匹配及自定义验证函数等多种评估方式。

使用方法

使用该数据集时，首先通过HuggingFace数据集库加载测试分割。标准答案以JSON格式存储，需通过反序列化处理。评估采用pass@1核心指标，同时提供按题目类型和年级加权的细化评估方案。验证机制根据check_type字段选择相应匹配策略，对于自定义类型需调用check_function中定义的验证函数。

背景与挑战

背景概述

俄罗斯数学奥林匹克基准数据集（ROMB-1.0）由d0rj研究团队于当代构建，专门针对俄语数学问题求解能力的系统评估。该数据集汇集了2552道涵盖算术、几何与逻辑推理的竞赛题目，源自俄罗斯各级数学奥林匹克赛事，旨在推动自然语言处理与数学推理的交叉研究。通过结构化标注与多类型答案验证机制，该资源为俄语数学教育智能化与自动解题系统的发展提供了重要支撑。

当前挑战

该数据集核心挑战在于解决俄语数学文本的语义解析与多步骤推理问题，需处理几何证明、符号运算及开放域逻辑推理等复杂任务。构建过程中面临多源异构数据整合、答案标准化与验证机制设计的难题，特别是对自由文本答案的结构化转换与自定义验证函数的实现要求极高，同时需确保不同题型评分标准的一致性。

常用场景

经典使用场景

在数学推理与自动解题研究领域，ROMB-1.0数据集作为俄语数学奥林匹克竞赛题的标准化基准，为评估语言模型在复杂数学问题求解能力提供了重要平台。该数据集涵盖几何、逻辑与算术三大类别的2552道题目，通过结构化输出格式和多样化验证机制，支持模型进行精确的数学推导和答案生成。

衍生相关工作

基于该数据集衍生的经典工作包括ROMB-Leaderboard评估平台及其加权评分体系，其中weighted_pass@1指标创新性地引入年级权重系数。后续研究进一步扩展了几何问题的空间推理验证方法，并发展了结合形式化验证的混合评估框架，推动了多模态数学推理模型的发展。

数据集最近研究