PolyMath

github2025-05-08 更新2025-05-09 收录

下载链接：

https://github.com/QwenLM/PolyMath

下载链接

链接失效反馈

官方服务：

资源简介：

PolyMath是一个多语言数学推理基准数据集，涵盖了18种语言和4个从易到难的难度级别，包含9,000个高质量的问题样本。该基准确保了难度的全面性、语言的多样性和高质量的翻译，使其成为推理大模型时代中一个高度区分的多语言数学基准。

PolyMath is a multilingual mathematical reasoning benchmark dataset. It covers 18 languages and 4 difficulty levels ranging from easy to difficult, containing 9,000 high-quality question samples. This benchmark ensures comprehensiveness in difficulty, linguistic diversity and high-quality translations, making it a highly discriminative multilingual mathematical benchmark in the era of large language models for reasoning.

创建时间：

2025-04-25

原始信息汇总

PolyMath数据集概述

📖 简介

名称：PolyMath
目的：评估多语言环境下的数学推理能力
规模：包含9,000个高质量数学问题样本
特点：
- 覆盖18种语言
- 包含4个从易到难的难度级别

✨ 核心特征

难度范围广
- 基于两个核心维度划分四个难度级别：
  - 思维深度（Thought Depth）
  - 知识广度（Knowledge Breadth）
- 难度范围：从K-12到奥林匹克及高级前沿数学
- 每个语言每个难度级别包含125个问题
语言多样性
- 覆盖18种平行语言版本
- 涵盖超过75%的世界母语使用者
- 包含高资源和低资源语言
高质量标注
- 由语言专家校准翻译
- 避免直接使用LLM生成输出
- 确保术语和逻辑的精确性

🛠️ 数据结构

组织形式：

PolyMath/ ├── ar/ │ ├── low.parquet │ ├── medium.parquet │ ├── high.parquet | └── top.parquet ├── bn/ ├── ... └── zh/
额外资源：所有推理过程中使用的提示词在instruction.py中提供

🧪 评估方法

输出格式要求
- 文件结构：
  
  PolyMath/output ├── qwq-32b │ ├── low │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ ├── medium │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ ├── high │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ └── top │ ├── ar.jsonl │ ├── bn.jsonl │ └── ... ├── deepseek-v3 └── ... (other models)
- 每个样本格式： json { "idx": 114, "question": "问题内容", "answer": "正确答案", "thinking_pred": "模型思考内容", "answer_pred": "模型回答内容" }
评分计算
- 提供/eval/run_eval.py评估代码
- 评估指标：准确率和语言一致性
- 自动生成评分文件：/eval/output/{model_name}/score.json

📄 引用

bibtex @misc{wang2025polymath, title={PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts}, author={Yiming Wang and Pei Zhang and Jialong Tang and Haoran Wei and Baosong Yang and Rui Wang and Chenshu Sun and Feitong Sun and Jiran Zhang and Junxuan Wu and Qiqian Cang and Yichang Zhang and Fei Huang and Junyang Lin and Fei Huang and Jingren Zhou}, year={2025}, eprint={2504.18428}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.18428}, }

搜集汇总

数据集介绍

构建方式

PolyMath数据集通过精心设计的四层难度体系构建，涵盖从K-12到奥林匹克竞赛及前沿数学的广泛领域。研究团队采用思维深度和知识广度两个核心维度进行难度划分，每种语言在每个难度层级包含125道题目。为确保多语言质量，所有问题均由语言专家进行校准翻译，覆盖18种语言版本，避免直接使用大语言模型生成内容，保证术语准确性和逻辑严谨性。

特点

该数据集最显著的特征在于其多维度的评估体系，既包含横向的语言多样性，覆盖全球75%以上母语使用者的18种语言；又具备纵向的难度梯度，形成完整的数学能力评估光谱。每个语言版本均保持严格的平行对应关系，题目翻译经过语言学专家校验，在保持数学严谨性的同时兼顾不同语言的文化适应性。数据集特别强调对低资源语言的覆盖，为跨语言数学推理研究提供了宝贵资源。

使用方法

研究人员可通过Hugging Face平台获取标准化的Parquet格式数据，按语言和难度层级组织。评估流程提供完整的工具链支持，包含环境配置脚本、输出标准化模板和自动化评分系统。用户需按照指定JSONL格式组织模型输出结果，运行评估脚本即可自动计算准确率和语言一致性指标。数据集配套的指令模板和评分系统支持灵活定制，允许研究者根据需求调整模型列表、语言子集或难度层级进行针对性评估。

背景与挑战

背景概述

PolyMath数据集由Qwen团队于2025年推出，旨在构建一个多语言数学推理评估基准。该数据集覆盖18种语言和4个难度级别，包含9000个高质量数学问题样本。研究团队通过定义"思维深度"和"知识广度"两个核心维度，系统划分了从K-12到奥数及前沿数学的难度谱系。作为首个同时兼顾语言多样性和难度层次的大规模数学评测基准，PolyMath为多语言大模型的数学推理能力评估提供了重要工具，推动了跨语言数学认知研究的发展。

当前挑战

PolyMath面临的核心挑战体现在两个方面：在领域问题层面，多语言数学推理评估需要克服不同语言间数学术语表达差异、逻辑结构转换等难题；在构建过程中，确保18种语言翻译的准确性、保持原始数学逻辑的一致性，以及平衡高低资源语言的样本质量构成了主要技术瓶颈。此外，定义普适性的难度量化标准，并使其适用于从基础算术到前沿数学的广泛谱系，也是极具挑战性的工作。

常用场景

经典使用场景

在自然语言处理领域，PolyMath数据集为研究多语言数学推理能力提供了标准化的评估平台。该数据集通过涵盖18种语言和4个难度级别的9000道数学问题，为研究者测试和比较不同语言模型在跨语言数学推理任务上的表现提供了丰富资源。特别是在大语言模型时代，该数据集成为评估模型在复杂数学问题中跨语言迁移能力的重要工具。

衍生相关工作

基于PolyMath数据集已催生多项创新研究，包括跨语言数学推理的迁移学习框架、低资源语言数学术语表示方法等。数据集提出的二维难度评估体系被后续研究广泛采纳，其多语言评估范式启发了其他学科领域基准的构建。相关成果在ACL、EMNLP等顶级会议形成专门研讨方向。

数据集最近研究