PolyMath|数学推理数据集|多语言处理数据集
收藏PolyMath数据集概述
📖 简介
- 名称:PolyMath
- 目的:评估多语言环境下的数学推理能力
- 规模:包含9,000个高质量数学问题样本
- 特点:
- 覆盖18种语言
- 包含4个从易到难的难度级别
✨ 核心特征
-
难度范围广
- 基于两个核心维度划分四个难度级别:
- 思维深度(Thought Depth)
- 知识广度(Knowledge Breadth)
- 难度范围:从K-12到奥林匹克及高级前沿数学
- 每个语言每个难度级别包含125个问题
- 基于两个核心维度划分四个难度级别:
-
语言多样性
- 覆盖18种平行语言版本
- 涵盖超过75%的世界母语使用者
- 包含高资源和低资源语言
-
高质量标注
- 由语言专家校准翻译
- 避免直接使用LLM生成输出
- 确保术语和逻辑的精确性
🛠️ 数据结构
-
组织形式:
PolyMath/ ├── ar/ │ ├── low.parquet │ ├── medium.parquet │ ├── high.parquet | └── top.parquet ├── bn/ ├── ... └── zh/
-
额外资源:所有推理过程中使用的提示词在
instruction.py
中提供
🧪 评估方法
-
输出格式要求
-
文件结构:
PolyMath/output ├── qwq-32b │ ├── low │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ ├── medium │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ ├── high │ │ ├── ar.jsonl │ │ ├── bn.jsonl │ │ └── ... │ └── top │ ├── ar.jsonl │ ├── bn.jsonl │ └── ... ├── deepseek-v3 └── ... (other models)
-
每个样本格式: json { "idx": 114, "question": "问题内容", "answer": "正确答案", "thinking_pred": "模型思考内容", "answer_pred": "模型回答内容" }
-
-
评分计算
- 提供
/eval/run_eval.py
评估代码 - 评估指标:准确率和语言一致性
- 自动生成评分文件:
/eval/output/{model_name}/score.json
- 提供
📄 引用
bibtex @misc{wang2025polymath, title={PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts}, author={Yiming Wang and Pei Zhang and Jialong Tang and Haoran Wei and Baosong Yang and Rui Wang and Chenshu Sun and Feitong Sun and Jiran Zhang and Junxuan Wu and Qiqian Cang and Yichang Zhang and Fei Huang and Junyang Lin and Fei Huang and Jingren Zhou}, year={2025}, eprint={2504.18428}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.18428}, }

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Chinese-Poetry-Corpus
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。
github 收录
NHANES
NHANES(National Health and Nutrition Examination Survey)是美国国家健康与营养调查的数据集,旨在评估美国人口的健康和营养状况。数据集包括健康检查、实验室测试、问卷调查等多方面的信息。
www.cdc.gov 收录