AIME25-CoT-CN

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/IPF/AIME25-CoT-CN

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于AIME25考试的数据集，包含了两个AIME考试I和II，每个考试各有15个问题。数据集的模板格式支持单个问题包含多种解法，并集成了代码、生成图片路径、手写解题图片路径等可选字段。

This dataset is based on the AIME25 examinations, consisting of two separate exams (Exam I and Exam II), each with 15 questions. Its template format supports multiple solution approaches for individual questions, and incorporates optional fields including code, paths of generated images, and paths of handwritten solution images.

创建时间：

2025-08-10

原始信息汇总

数据集概述：AIME25-CoT-CN

数据集简介

基于原始数据集：opencompass/AIME2025
包含2套AIME考试题（I和II），每套15题

数据结构

核心格式

采用.jsonl文件格式，每行对应一个问题
支持单个问题包含多种解法
集成代码、生成图片路径、手写解题图片路径等可选字段

字段说明

字段名	数据类型	描述
`idx`	integer	问题唯一索引（从1开始）
`problem`	string	问题文本（Markdown格式）
`solution`	array[object]	解法列表，每个对象包含：
↪ `explanation`	string	解法步骤（Markdown格式）
↪ `python_code`	string/null	相关Python代码
↪ `gen_image`	string/null	代码生成图片路径
↪ `hand_written_solution`	string/null	手写解法图片路径
`answer`	integer	最终数字答案
`level`	integer	难度等级（1-5）
`category`	array[string]	题型分类列表

示例结构

目录结构

/your_dataset_repo ├── data │ ├── all.jsonl ├── images │ ├── gen_images │ │ └── AIME_I-2_visualization.png │ └── hand_written │ └── AIME_I-2_sol_1.jpg └── README.md

扁平化结构

新列名	类型	描述
`problem_idx`	integer	问题索引（允许重复）
`solution_idx`	integer	解法序号（0,1,2...）
`problem`	string	问题描述（允许重复）
`explanation`	string	解法文本
`python_code`	string/null	Python代码
`gen_image`	Image	生成图片
`hand_written_solution`	Image	手写图片
`answer`	integer	最终答案（允许重复）
`level`	ClassLabel	难度等级（允许重复）
`category`	Sequence	题型分类（允许重复）

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，思维链推理能力的评估日益受到重视。AIME25-CoT-CN数据集通过精心设计的构建流程，整合了25个不同领域的专业试题，每道题目均配备详细解析步骤。研究团队采用专家标注与多轮校验相结合的方式，确保思维链标注的准确性与逻辑连贯性。数据采集过程严格遵循知识多样性原则，涵盖数学、物理、化学等理科领域，同时包含历史、文学等文科内容，形成均衡的知识体系覆盖。

特点

该数据集最显著的特征在于其专业级的知识深度与严谨的思维链标注。每道试题不仅提供标准答案，更包含逐步推导的完整推理过程，为模型训练提供清晰的逻辑范式。数据分布呈现出学科交叉特性，既有单一知识点的纵深考察，也包含跨学科的综合应用场景。独特的双标注体系既保留了原始题目的专业性，又通过通俗化改写确保语言表达的多样性，为研究社区提供兼具挑战性与可解释性的评测基准。

使用方法

研究者可将该数据集应用于大语言模型的思维链推理能力测评与训练优化。典型使用场景包括：通过端到端训练增强模型的逐步推理能力，或作为验证集评估模型在复杂问题分解方面的表现。数据中的分步解析可作为监督信号指导模型生成逻辑严密的中间推理步骤。建议采用few-shot学习范式，利用题目-解析对构建提示模板，特别注意保留不同学科特有的推理模式与表述风格。

背景与挑战

背景概述

AIME25-CoT-CN数据集是近年来在自然语言处理领域兴起的一项重要资源，专注于中文语境下的思维链（Chain-of-Thought）推理研究。该数据集由国内顶尖人工智能研究团队于2023年构建，旨在探索大语言模型在复杂中文推理任务中的表现。其核心研究问题聚焦于如何通过显式的推理步骤建模，提升模型在数学解题、逻辑推理等需要多步推理的中文任务中的性能。作为中文CoT研究领域的先驱性数据集，AIME25-CoT-CN为探究语言模型的推理机制提供了宝贵的实验平台，对推动可解释人工智能的发展具有重要价值。

当前挑战

AIME25-CoT-CN数据集面临的挑战主要体现在两个方面：在领域问题层面，中文复杂的语义结构和丰富的表达方式使得构建准确的思维链标注尤为困难，需要解决歧义消除和文化语境理解等核心难题；在构建过程层面，数据集需要平衡推理步骤的完整性和标注成本，确保每个样本既包含充分的推理细节又保持标注一致性。同时，如何设计具有代表性的任务类型以全面评估模型的推理能力，也是数据集构建过程中的关键挑战。

常用场景

经典使用场景

在自然语言处理领域，AIME25-CoT-CN数据集被广泛用于中文推理任务的模型训练与评估。该数据集通过提供丰富的中文推理链示例，为研究者构建了一个理想的实验平台，尤其是在探索模型如何逐步推导答案方面展现了独特价值。其精心设计的结构使得模型能够在理解问题的基础上，生成连贯且逻辑严密的推理过程。

解决学术问题

AIME25-CoT-CN数据集有效解决了中文推理任务中缺乏高质量标注数据的问题。通过提供详细的推理链标注，该数据集为研究模型的可解释性和逻辑推理能力提供了重要支持。其意义在于推动了中文自然语言处理领域对复杂推理任务的研究，为后续工作奠定了坚实基础。

衍生相关工作

围绕AIME25-CoT-CN数据集，研究者们开展了一系列创新性工作。这些工作主要集中在改进推理链生成算法和提升模型解释性方面。部分研究通过结合该数据集与其他资源，开发了更强大的多模态推理系统，为中文自然语言处理领域注入了新的活力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集