t-tech/T-math

Name: t-tech/T-math
Creator: t-tech
Published: 2026-03-31 13:17:53
License: 暂无描述

Hugging Face2026-03-31 更新2025-08-09 收录

下载链接：

https://hf-mirror.com/datasets/t-tech/T-math

下载链接

链接失效反馈

官方服务：

资源简介：

T-Math是一个包含俄罗斯数学奥林匹克问题的数据集，用于评估大型语言模型在数学推理方面的能力。该数据集包含了从1998年到2025年期间的全俄学校和莫斯科奥林匹克问题，共331个样本，是迄今为止最大的俄罗斯数学奥林匹克级别基准数据集。

T-Math is a dataset of Russian math olympiad problems designed to assess the reasoning capabilities of large language models (LLMs) in mathematics. It includes 331 problems from the All-Russian School Olympiad and the Moscow Olympiad for high school students, covering the period from 1998 to 2025, making it the largest Russian math olympiad-level benchmark.

提供机构：

t-tech

搜集汇总

数据集介绍

构建方式

在数学竞赛问题自动评估领域，T-math数据集通过系统化流程构建而成。其原始文本从全俄学校奥林匹克竞赛和莫斯科奥林匹克竞赛的PDF文件中提取，借助先进的多模态语言模型Qwen2.5-VL-72B-Instruct完成初步解析。随后，通过大语言模型调用，自动抽取出问题陈述、标准答案及可验证的数值答案。构建过程中实施了严格的过滤机制，剔除了需要多个答案、无单一正确答案、证明类问题以及依赖图像的非数值型任务，以确保评估的自动化和一致性。最后，所有条目均经过人工审核，保证了数据与原始资料的高度吻合。

特点

T-math数据集作为俄语数学奥林匹克问题的基准，展现出若干显著特性。其收录了1998年至2025年间的高中竞赛题目，共计331个样本，是目前规模最大的俄语数学奥赛级别数据集，提供了更稳健的统计基础。这些问题普遍需要多步推理，具有较高挑战性，即使前沿推理模型也尚未完全掌握。数据集设计注重可验证性，答案均为纯数值形式，并可通过math_verify库进行数学表达式比对，简化了自动评估流程。这些特点使其成为衡量语言模型数学推理能力的有效工具。

使用方法

为有效利用T-math数据集评估模型性能，需遵循特定的使用规范。评估时，应首先为模型配置系统提示，引导其将最终答案以$\boxed{}$格式输出，便于后续解析。随后，可借助提供的Python代码片段，利用math_verify库对模型生成答案与标准答案进行比对。该库支持LaTeX表达式的解析与验证，通过归一化配置处理各种数学符号和格式，最终返回二进制奖励分数以量化模型表现。这种方法确保了评估过程的自动化、客观性与可重复性。

背景与挑战

背景概述

T-Math数据集由俄罗斯研究人员于2026年创建，旨在评估大型语言模型在数学推理方面的能力。该数据集聚焦于俄罗斯数学奥林匹克竞赛题目，涵盖1998年至2025年间全俄学校奥林匹克竞赛和莫斯科奥林匹克竞赛的高中阶段试题，共计331道题目。其核心研究问题在于探索模型处理复杂多步数学推理任务的极限，通过自动提取与人工验证相结合的方式构建高质量基准。作为目前规模最大的俄语数学奥林匹克级别评测集，T-Math为数学自动推理领域提供了更可靠的统计基础，推动了跨语言复杂问题求解研究的发展。

当前挑战

该数据集致力于解决数学自动推理领域的核心挑战，即如何让模型掌握人类级别的多步骤逻辑推导与符号运算能力。俄罗斯奥林匹克数学题往往涉及非直观的解题策略与抽象概念转化，这对模型的深层推理机制提出了严峻考验。在构建过程中，研究团队面临多重技术障碍：原始PDF文档的格式解析需要处理复杂的数学公式排版；题目筛选必须排除证明类问题与非数值答案题目以保证自动验证可行性；同时需通过人工复核确保题目与答案的语义一致性，这些环节共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在数学推理与大型语言模型评估领域，T-math数据集作为一项专门针对俄罗斯数学奥林匹克竞赛题目的基准测试工具，其经典使用场景聚焦于评估模型在复杂多步数学推理任务中的性能。该数据集通过提供高难度、需深度逻辑推导的数学问题，为研究者测试模型如Qwen3-32B或Gemini 2.5 Pro的解题能力与泛化性提供了标准化平台。借助自动提取与人工验证结合的题目与答案，它确保了评估过程的严谨性，使模型在解决如代数、几何等高级数学问题时，其推理链条的完整性与答案准确性得以量化分析。

实际应用

在实际应用层面，T-math数据集被广泛集成于大型语言模型的开发与优化流程中，助力提升模型在数学教育辅助、智能解题系统等场景的实用性。例如，教育科技公司可基于该数据集训练模型，为学生提供奥林匹克级数学题目的分步解答指导；研究团队则利用其评估模型在复杂数学环境下的鲁棒性，推动推理引擎的迭代。此外，数据集的验证框架可直接部署于自动化评分系统，为在线学习平台提供即时反馈功能，增强用户体验与教学效果。

衍生相关工作

围绕T-math数据集，学术界衍生出多项经典研究工作，其中最具代表性的是T-pro 2.0模型的开发。该模型作为高效的俄罗斯混合推理系统，在T-math基准上取得了显著性能，相关成果发表于2026年欧洲计算语言学会议。同时，数据集推动了math_verify等数学表达式验证工具的创新，优化了自动化评估流程。其他研究则聚焦于扩展数据集的跨语言适配或融合多模态信息，以应对图像依赖型题目的挑战，进一步丰富了数学推理领域的探索维度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集