lyadalachanchu/correct-solutions-gpt-oss-20b-aime26
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/lyadalachanchu/correct-solutions-gpt-oss-20b-aime26
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: default
features:
- name: source_file
dtype: string
- name: model
dtype: string
- name: tokenizer
dtype: string
- name: target_correct
dtype: int64
- name: n_per_round
dtype: int64
- name: rounds_completed
dtype: int64
- name: all_solved
dtype: bool
- name: problem_index
dtype: int64
- name: question_number
dtype: int64
- name: question
dtype: string
- name: ground_truth_answer
dtype: string
- name: ground_truth_normalized
dtype: string
- name: attempts_total
dtype: int64
- name: stopped_by_max_incorrect_streak
dtype: bool
- name: attempt_number
dtype: int64
- name: normalized_prediction
dtype: string
- name: num_tokens
dtype: int64
- name: text
dtype: string
- name: cot_text
dtype: string
- name: answer_with_working
dtype: string
- name: boxed_answer
dtype: string
splits:
- name: train
num_bytes: 8918262
num_examples: 156
download_size: 4384680
dataset_size: 8918262
- config_name: wrong
features:
- name: source_file
dtype: string
- name: model
dtype: string
- name: tokenizer
dtype: string
- name: target_wrong
dtype: int64
- name: n_per_round
dtype: int64
- name: rounds_completed
dtype: int64
- name: wrong_reference_dataset
dtype: string
- name: wrong_reference_split
dtype: string
- name: all_eligible_complete
dtype: bool
- name: problem_index
dtype: int64
- name: question_number
dtype: int64
- name: question
dtype: string
- name: ground_truth_answer
dtype: string
- name: ground_truth_normalized
dtype: string
- name: attempts_total
dtype: int64
- name: eligible_for_wrong_split
dtype: bool
- name: verified_wrong
dtype: bool
- name: attempt_number
dtype: int64
- name: normalized_prediction
dtype: string
- name: num_tokens
dtype: int64
- name: text
dtype: string
- name: cot_text
dtype: string
- name: answer_with_working
dtype: string
- name: boxed_answer
dtype: string
splits:
- name: wrong
num_bytes: 14478029
num_examples: 156
download_size: 7237389
dataset_size: 14478029
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- config_name: wrong
data_files:
- split: wrong
path: wrong/wrong-*
---
提供机构:
lyadalachanchu
搜集汇总
数据集介绍

构建方式
该数据集源自对大规模语言模型在数学推理任务中的系统性评测,聚焦于2025年美国数学邀请赛(AIME 2025)中的26道高难度试题。构建过程采用GPT系列开源模型(如20B参数版本)进行多轮迭代推理,每道题目允许模型进行多次尝试,并记录每次尝试的完整推理链(Chain-of-Thought)与最终答案。数据分为两个子集:default子集收录了模型最终正确解答的156条样本,wrong子集则对应模型错误解答的156条样本,两者均包含详细的元数据,如尝试次数、停用条件、标准化答案及推理文本。通过这种正误对照的设计,数据集为分析模型在复杂数学问题中的行为模式提供了结构化基础。
特点
该数据集的核心特色在于其精细的正误对比架构与丰富的推理过程记录。default与wrong两个子集各自包含156条样本,数量均衡,便于进行模型性能的差异分析。每条样本不仅包含原始问题与标准答案,还保留了模型生成的完整推理文本(cot_text)、工作过程(answer_with_working)以及方框化答案(boxed_answer),使得研究者能够深入探究模型在解题过程中的逻辑路径与常见错误模式。此外,数据集中记录了每次尝试的token数量、是否因连续错误而终止等细节,这些多维度的信息为评估模型推理的稳健性、效率及错误传播机制提供了前所未有的洞察机会。
使用方法
使用该数据集时,研究者可通过Hugging Face Datasets库加载两个配置(default与wrong),分别获取正确与错误的推理样本。由于数据集规模小巧(共312条样本),非常适合作为微调或评估的基准集。对于default子集,可用于训练模型学习正确的解题推理路径;而wrong子集则特别适合用于错误分析、对比学习或构建负样本增强数据集。用户还可利用数据中的ground_truth_normalized字段进行自动化评估,或结合boxed_answer与cot_text字段开发针对数学推理的奖励模型。建议在使用时注意数据集来源于特定模型(GPT-OSS-20B),其推理模式可能与其他模型存在差异,因此跨模型泛化分析时应谨慎处理。
背景与挑战
背景概述
该数据集名为correct-solutions-gpt-oss-20b-aime26,专注于评估和提升大型语言模型在数学推理任务中的表现,特别是针对AIME(美国数学邀请赛)级别的高难度数学问题。数据集创建于近期,由致力于开放源码大模型优化的研究团队构建,旨在系统性地收集并分析模型在解题过程中的正确与错误输出。核心研究问题在于探索GPT风格模型在复杂数学推理中的能力边界,并为后续的模型微调与提示工程提供高质量的标注数据。通过对156道精选问题的多轮次求解记录,该数据集为衡量模型推理稳定性与准确性提供了宝贵基准,对推动数学领域的大模型应用具有重要影响。
当前挑战
该数据集面临的挑战主要来自两方面。领域问题层面,高难度数学推理要求模型不仅理解自然语言问题,还需进行多步骤的符号运算与逻辑推导,而现有大模型在此类任务中常出现计算错误、逻辑断裂或虚假推理链,构建该数据集正是为了系统捕获并分析这些典型失败模式。构建过程中,挑战在于设计合理的多轮尝试机制与错误分类标准,确保每个求解记录既能反映模型真实能力,又能准确区分因偶然性导致的正确与系统性错误,同时平衡数据规模与标注质量,以服务于后续的针对性训练与评估。
常用场景
经典使用场景
在数学推理与人工智能的交叉领域中,correct-solutions-gpt-oss-20b-aime26数据集为评估和提升大语言模型的符号推理能力提供了关键基准。该数据集源自美国数学邀请赛(AIME)的26道高难度竞赛题,每道题目均包含由开源20B参数模型生成的正确解答步骤、链式思维推理过程以及归一化后的标准答案。研究者可借助该数据集,系统性地分析模型在复杂数学问题上的解题路径,对比不同采样策略(如多轮尝试次数)对最终正确率的影响,从而深入理解模型在形式化推理任务中的行为模式与局限。
实际应用
在实际应用层面,该数据集可被直接用于构建智能数学辅导系统的核心评估模块。教育科技企业能够借助其中结构化的正确与错误解题范例,训练模型不仅输出最终答案,还能生成分步的、可验证的推理过程,从而为学生提供精准的错因分析与个性化指导。此外,数据集中的多轮尝试记录可用于优化模型的自我纠错机制,使AI助手在用户遇到难题时能主动调整解题策略。该资源还可服务于竞赛培训场景,帮助自动化生成与AIME难度相当的模拟试题,并辅助教师快速评估学生的思维链路。
衍生相关工作
该数据集的发布催生了若干具有影响力的后续研究工作。在方法论层面,研究者基于其失败案例构建了‘错误驱动迭代训练’框架,通过刻意让模型在易错题上反复练习,显著提升了其在更广泛数学基准上的表现。在模型评估方面,衍生工作提出了‘推理深度评分’指标,利用数据集中完整的链式思维标注,量化模型在每一步的逻辑连贯性。此外,该数据集还被用于验证‘多智能体协作推理’范式,即让多个不同架构的模型针对同一道题目交换解答步骤,最终投票选出最优答案,这些工作共同推动了数学推理领域从‘答案导向’向‘过程可解释’的范式转变。
以上内容由遇见数据集搜集并总结生成



