RealMath

github2025-05-23 更新2025-05-26 收录

下载链接：

https://github.com/ethz-spylab/RealMath

下载链接

链接失效反馈

官方服务：

资源简介：

一个直接从研究论文和数学论坛中提取的新型基准，用于评估语言模型在真实数学任务上的能力。数据集包括来自math.arXiv的633个样本、来自cs.arXiv的111个样本和来自Math Stack Exchange的542个样本。

A novel benchmark extracted directly from research papers and mathematical forums, designed to evaluate the capabilities of language models on real-world mathematical tasks. The dataset includes 633 samples from math.arXiv, 111 samples from cs.arXiv, and 542 samples from Math Stack Exchange.

创建时间：

2025-05-15

原始信息汇总

RealMath Benchmark 数据集概述

基本信息

数据集名称: RealMath
论文标题: RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics
论文链接: https://arxiv.org/abs/2505.12575
数据集链接: https://huggingface.co/datasets/ethz-spylab/realmath
作者: Jie Zhang, Cezara Petrui, Kristina Nikolić, Florian Tramèr
发布日期: 2025年

数据集内容

数据来源:
- 633个样本来自math.arXiv
- 111个样本来自cs.arXiv
- 542个样本来自Math Stack Exchange
总样本量: 1286个样本

核心特点

真实世界应用导向:
- 内容直接来源于数学研究论文和数学论坛
- 反映真实的数学研究用例
自动化验证:
- 样本设计便于程序化验证
- 支持可扩展和可靠的评估
持续更新机制:
- 采用可刷新的数据集设计
- 避免长期使用中的数据污染问题

数据处理流程

从arXiv检索数学相关论文
提取和处理LaTeX源代码
从论文中提取定理
从定理生成固定答案的问答对
评估LLM在问答对上的表现

技术需求

Python版本: 3.12
依赖项: 需安装requirements.txt中列出的包
额外要求: 需要本地安装LaTeX

引用信息

bib @misc{zhang2025realmathcontinuousbenchmarkevaluating, title={RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics}, author={Jie Zhang and Cezara Petrui and Kristina Nikolić and Florian Tramèr}, year={2025}, eprint={2505.12575}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2505.12575}, }

搜集汇总

数据集介绍

构建方式

RealMath数据集通过系统化的数据采集与处理流程构建而成，其核心素材来源于数学研究领域的权威文献与学术交流平台。研究团队从arXiv的数学与计算机科学板块提取了744篇论文，结合Math Stack Exchange论坛的542条讨论，采用自动化工具解析LaTeX源码并抽离数学定理，最终生成具有固定答案的问答对。该流程包含文献检索、文本提取、定理识别和问答生成四个关键环节，确保了数据来源的学术严谨性与问题表述的精确性。

使用方法

使用者可通过HuggingFace平台直接获取结构化数据集，或利用提供的Python脚本实现端到端的定制化流程。评估系统支持多模型并行测试，用户只需指定目标模型与数据路径即可启动自动化评测。数据集采用LaTeX原生格式存储，既保障了数学符号的精确渲染，也便于研究者进行人工复核。配套的arxiv_retriever等工具模块支持按时间、学科等维度灵活更新数据，使基准测试能够与时俱进地反映模型的最新数学能力。

背景与挑战

背景概述

RealMath数据集由苏黎世联邦理工学院（ETH Zurich）的Jie Zhang、Cezara Petrui、Kristina Nikolić和Florian Tramèr团队于2025年推出，旨在评估语言模型在研究级数学任务上的表现。该数据集直接从数学研究论文和数学论坛中提取内容，包含来自math.arXiv的633个样本、cs.arXiv的111个样本以及Math Stack Exchange的542个样本。其核心研究问题聚焦于语言模型作为数学家助手的实际效能，通过真实世界的数学应用场景和自动化验证机制，为数学领域的人工智能研究提供了重要基准。

当前挑战

RealMath数据集面临的挑战主要包括两方面：在领域问题层面，研究级数学问题通常涉及复杂的逻辑推理和抽象概念，语言模型在处理此类问题时容易因语义理解不足或逻辑错误而失败；在构建过程中，从LaTeX源码提取定理并生成可验证的问答对需要解决数学符号的精确解析、上下文依赖关系的处理以及自动化验证机制的可靠性等问题。此外，保持数据集的持续更新以避免模型污染也是一项重要挑战。

常用场景

经典使用场景

RealMath数据集作为评估语言模型在研究级数学任务上的基准，广泛应用于自然语言处理领域。该数据集通过从arXiv和Math Stack Exchange等平台提取真实的数学问题和定理，构建了一个包含1286个样本的高质量语料库。研究人员利用这一数据集，可以系统地测试语言模型在解决复杂数学问题时的表现，包括定理理解、公式推导和问题解答等核心能力。该数据集的设计充分考虑了真实性和可验证性，为模型评估提供了可靠的依据。

解决学术问题

RealMath数据集有效解决了语言模型在高级数学领域评估的空白问题。传统数学数据集往往局限于基础算术或预定义的数学问题，难以反映真实研究场景中的复杂性。该数据集通过直接从研究论文和数学论坛中提取内容，构建了一个具有研究级难度的评估基准。它不仅支持对模型数学推理能力的量化分析，还为研究语言模型在专业领域的知识掌握和迁移能力提供了重要工具，推动了AI与数学交叉领域的发展。

实际应用

在实际应用中，RealMath数据集为数学辅助工具的开发提供了关键支持。教育科技公司可以利用该数据集训练和优化面向数学研究者的AI助手，帮助学者快速理解复杂定理或寻找问题解决思路。科研机构则可通过这一基准持续跟踪语言模型在数学领域的进步，指导模型研发方向。数据集的可更新特性确保了评估始终基于最新的数学研究成果，使其成为连接AI技术与数学研究的重要桥梁。

数据集最近研究