PolyMath
收藏PolyMath数据集概述
📖 简介
- 名称:PolyMath
- 目的:评估多语言环境下的数学推理能力
- 规模:包含9,000个高质量数学问题样本
- 特点:
- 覆盖18种语言
- 包含4个从易到难的难度级别
✨ 核心特征
-
难度范围广
- 基于两个核心维度划分四个难度级别:
- 思维深度(Thought Depth)
- 知识广度(Knowledge Breadth)
- 难度范围:从K-12到奥林匹克及高级前沿数学
- 每个语言每个难度级别包含125个问题
- 基于两个核心维度划分四个难度级别:
-
语言多样性
- 覆盖18种平行语言版本
- 涵盖超过75%的世界母语使用者
- 包含高资源和低资源语言
-
高质量标注
- 由语言专家校准翻译
- 避免直接使用LLM生成输出
- 确保术语和逻辑的精确性
🛠️ 数据结构
-
组织形式:
PolyMath/ ├── ar/ │ ├── low.parquet │ ├── medium.parquet │ ├── high.parquet | └── top.parquet ├── bn/ ├── ... └── zh/
-
额外资源:所有推理过程中使用的提示词在
instruction.py中提供
🧪 评估方法
-
输出格式要求
-
文件结构:
PolyMath/output ├── qwq-32b │ ├── low │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ ├── medium │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ ├── high │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ └── top │ ├── ar.jsonl │ ├── bn.jsonl │ └── ... ├── deepseek-v3 └── ... (other models)
-
每个样本格式: json { "idx": 114, "question": "问题内容", "answer": "正确答案", "thinking_pred": "模型思考内容", "answer_pred": "模型回答内容" }
-
-
评分计算
- 提供
/eval/run_eval.py评估代码 - 评估指标:准确率和语言一致性
- 自动生成评分文件:
/eval/output/{model_name}/score.json
- 提供
📄 引用
bibtex @misc{wang2025polymath, title={PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts}, author={Yiming Wang and Pei Zhang and Jialong Tang and Haoran Wei and Baosong Yang and Rui Wang and Chenshu Sun and Feitong Sun and Jiran Zhang and Junxuan Wu and Qiqian Cang and Yichang Zhang and Fei Huang and Junyang Lin and Fei Huang and Jingren Zhou}, year={2025}, eprint={2504.18428}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.18428}, }




