PolyMath|数学推理数据集|多语言处理数据集

github2025-05-08 更新2025-05-09 收录

数学推理

多语言处理

下载链接：

https://github.com/QwenLM/PolyMath

下载链接

链接失效反馈

资源简介：

PolyMath是一个多语言数学推理基准数据集，涵盖了18种语言和4个从易到难的难度级别，包含9,000个高质量的问题样本。该基准确保了难度的全面性、语言的多样性和高质量的翻译，使其成为推理大模型时代中一个高度区分的多语言数学基准。

创建时间：

2025-04-25

原始信息汇总

PolyMath数据集概述

📖 简介

名称：PolyMath
目的：评估多语言环境下的数学推理能力
规模：包含9,000个高质量数学问题样本
特点：
- 覆盖18种语言
- 包含4个从易到难的难度级别

✨ 核心特征

难度范围广
- 基于两个核心维度划分四个难度级别：
  - 思维深度（Thought Depth）
  - 知识广度（Knowledge Breadth）
- 难度范围：从K-12到奥林匹克及高级前沿数学
- 每个语言每个难度级别包含125个问题
语言多样性
- 覆盖18种平行语言版本
- 涵盖超过75%的世界母语使用者
- 包含高资源和低资源语言
高质量标注
- 由语言专家校准翻译
- 避免直接使用LLM生成输出
- 确保术语和逻辑的精确性

🛠️ 数据结构

组织形式：

PolyMath/ ├── ar/ │ ├── low.parquet │ ├── medium.parquet │ ├── high.parquet | └── top.parquet ├── bn/ ├── ... └── zh/
额外资源：所有推理过程中使用的提示词在instruction.py中提供

🧪 评估方法

输出格式要求
- 文件结构：
  
  PolyMath/output ├── qwq-32b │ ├── low │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ ├── medium │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ ├── high │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ └── top │ ├── ar.jsonl │ ├── bn.jsonl │ └── ... ├── deepseek-v3 └── ... (other models)
- 每个样本格式： json { "idx": 114, "question": "问题内容", "answer": "正确答案", "thinking_pred": "模型思考内容", "answer_pred": "模型回答内容" }
评分计算
- 提供/eval/run_eval.py评估代码
- 评估指标：准确率和语言一致性
- 自动生成评分文件：/eval/output/{model_name}/score.json

📄 引用

bibtex @misc{wang2025polymath, title={PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts}, author={Yiming Wang and Pei Zhang and Jialong Tang and Haoran Wei and Baosong Yang and Rui Wang and Chenshu Sun and Feitong Sun and Jiran Zhang and Junxuan Wu and Qiqian Cang and Yichang Zhang and Fei Huang and Junyang Lin and Fei Huang and Jingren Zhou}, year={2025}, eprint={2504.18428}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.18428}, }

AI搜集汇总

数据集介绍

构建方式

PolyMath数据集通过精心设计的四层难度体系构建，涵盖从K-12到奥林匹克竞赛及前沿数学的广泛领域。研究团队采用思维深度和知识广度两个核心维度进行难度划分，每种语言在每个难度层级包含125道题目。为确保多语言质量，所有问题均由语言专家进行校准翻译，覆盖18种语言版本，避免直接使用大语言模型生成内容，保证术语准确性和逻辑严谨性。

特点

该数据集最显著的特征在于其多维度的评估体系，既包含横向的语言多样性，覆盖全球75%以上母语使用者的18种语言；又具备纵向的难度梯度，形成完整的数学能力评估光谱。每个语言版本均保持严格的平行对应关系，题目翻译经过语言学专家校验，在保持数学严谨性的同时兼顾不同语言的文化适应性。数据集特别强调对低资源语言的覆盖，为跨语言数学推理研究提供了宝贵资源。

使用方法

研究人员可通过Hugging Face平台获取标准化的Parquet格式数据，按语言和难度层级组织。评估流程提供完整的工具链支持，包含环境配置脚本、输出标准化模板和自动化评分系统。用户需按照指定JSONL格式组织模型输出结果，运行评估脚本即可自动计算准确率和语言一致性指标。数据集配套的指令模板和评分系统支持灵活定制，允许研究者根据需求调整模型列表、语言子集或难度层级进行针对性评估。

背景与挑战

背景概述

PolyMath数据集由Qwen团队于2025年推出，旨在构建一个多语言数学推理评估基准。该数据集覆盖18种语言和4个难度级别，包含9000个高质量数学问题样本。研究团队通过定义"思维深度"和"知识广度"两个核心维度，系统划分了从K-12到奥数及前沿数学的难度谱系。作为首个同时兼顾语言多样性和难度层次的大规模数学评测基准，PolyMath为多语言大模型的数学推理能力评估提供了重要工具，推动了跨语言数学认知研究的发展。

当前挑战

PolyMath面临的核心挑战体现在两个方面：在领域问题层面，多语言数学推理评估需要克服不同语言间数学术语表达差异、逻辑结构转换等难题；在构建过程中，确保18种语言翻译的准确性、保持原始数学逻辑的一致性，以及平衡高低资源语言的样本质量构成了主要技术瓶颈。此外，定义普适性的难度量化标准，并使其适用于从基础算术到前沿数学的广泛谱系，也是极具挑战性的工作。

常用场景

经典使用场景

在自然语言处理领域，PolyMath数据集为研究多语言数学推理能力提供了标准化的评估平台。该数据集通过涵盖18种语言和4个难度级别的9000道数学问题，为研究者测试和比较不同语言模型在跨语言数学推理任务上的表现提供了丰富资源。特别是在大语言模型时代，该数据集成为评估模型在复杂数学问题中跨语言迁移能力的重要工具。

衍生相关工作

基于PolyMath数据集已催生多项创新研究，包括跨语言数学推理的迁移学习框架、低资源语言数学术语表示方法等。数据集提出的二维难度评估体系被后续研究广泛采纳，其多语言评估范式启发了其他学科领域基准的构建。相关成果在ACL、EMNLP等顶级会议形成专门研讨方向。

数据集最近研究

最新研究方向

随着多语言大语言模型在数学推理领域的快速发展，PolyMath数据集为研究者提供了一个全面评估模型跨语言数学能力的基准平台。该数据集覆盖18种语言和4个难度层级的设计，使得研究者能够深入探索模型在不同语言环境下的推理一致性、知识迁移能力以及复杂问题解决表现。当前研究热点集中在多语言数学推理的零样本迁移、低资源语言下的模型适应性以及跨文化数学表述差异对模型性能的影响等方面。PolyMath的高质量标注和广泛语言覆盖为这些研究方向提供了可靠的数据支持，推动了多语言数学推理技术在教育、科研等领域的应用发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

suno

该数据集包含由人工智能生成的659,788首歌曲的元数据，这些歌曲由suno.com平台生成。数据集是多语言的，主要语言为英语，但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开，允许任何用途的使用、修改和分发。

huggingface 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Chinese-Poetry-Corpus

本语料库收集自互联网，包含了从先秦到当代的古诗词数据，以CSV格式进行存储。经过去重后，包含诗词共计1014508首。古诗词按朝代进行划分，存储于文件夹下，命名规则为朝代.csv。每首诗词数据包含五个字段，分别为标题、朝代、作者、体裁、内容。

github 收录

NHANES

NHANES（National Health and Nutrition Examination Survey）是美国国家健康与营养调查的数据集，旨在评估美国人口的健康和营养状况。数据集包括健康检查、实验室测试、问卷调查等多方面的信息。