five

lyadalachanchu/correct-solutions-gpt-oss-20b-aime26

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/lyadalachanchu/correct-solutions-gpt-oss-20b-aime26
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: default features: - name: source_file dtype: string - name: model dtype: string - name: tokenizer dtype: string - name: target_correct dtype: int64 - name: n_per_round dtype: int64 - name: rounds_completed dtype: int64 - name: all_solved dtype: bool - name: problem_index dtype: int64 - name: question_number dtype: int64 - name: question dtype: string - name: ground_truth_answer dtype: string - name: ground_truth_normalized dtype: string - name: attempts_total dtype: int64 - name: stopped_by_max_incorrect_streak dtype: bool - name: attempt_number dtype: int64 - name: normalized_prediction dtype: string - name: num_tokens dtype: int64 - name: text dtype: string - name: cot_text dtype: string - name: answer_with_working dtype: string - name: boxed_answer dtype: string splits: - name: train num_bytes: 8918262 num_examples: 156 download_size: 4384680 dataset_size: 8918262 - config_name: wrong features: - name: source_file dtype: string - name: model dtype: string - name: tokenizer dtype: string - name: target_wrong dtype: int64 - name: n_per_round dtype: int64 - name: rounds_completed dtype: int64 - name: wrong_reference_dataset dtype: string - name: wrong_reference_split dtype: string - name: all_eligible_complete dtype: bool - name: problem_index dtype: int64 - name: question_number dtype: int64 - name: question dtype: string - name: ground_truth_answer dtype: string - name: ground_truth_normalized dtype: string - name: attempts_total dtype: int64 - name: eligible_for_wrong_split dtype: bool - name: verified_wrong dtype: bool - name: attempt_number dtype: int64 - name: normalized_prediction dtype: string - name: num_tokens dtype: int64 - name: text dtype: string - name: cot_text dtype: string - name: answer_with_working dtype: string - name: boxed_answer dtype: string splits: - name: wrong num_bytes: 14478029 num_examples: 156 download_size: 7237389 dataset_size: 14478029 configs: - config_name: default data_files: - split: train path: data/train-* - config_name: wrong data_files: - split: wrong path: wrong/wrong-* ---
提供机构:
lyadalachanchu
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对大规模语言模型在数学推理任务中的系统性评测,聚焦于2025年美国数学邀请赛(AIME 2025)中的26道高难度试题。构建过程采用GPT系列开源模型(如20B参数版本)进行多轮迭代推理,每道题目允许模型进行多次尝试,并记录每次尝试的完整推理链(Chain-of-Thought)与最终答案。数据分为两个子集:default子集收录了模型最终正确解答的156条样本,wrong子集则对应模型错误解答的156条样本,两者均包含详细的元数据,如尝试次数、停用条件、标准化答案及推理文本。通过这种正误对照的设计,数据集为分析模型在复杂数学问题中的行为模式提供了结构化基础。
特点
该数据集的核心特色在于其精细的正误对比架构与丰富的推理过程记录。default与wrong两个子集各自包含156条样本,数量均衡,便于进行模型性能的差异分析。每条样本不仅包含原始问题与标准答案,还保留了模型生成的完整推理文本(cot_text)、工作过程(answer_with_working)以及方框化答案(boxed_answer),使得研究者能够深入探究模型在解题过程中的逻辑路径与常见错误模式。此外,数据集中记录了每次尝试的token数量、是否因连续错误而终止等细节,这些多维度的信息为评估模型推理的稳健性、效率及错误传播机制提供了前所未有的洞察机会。
使用方法
使用该数据集时,研究者可通过Hugging Face Datasets库加载两个配置(default与wrong),分别获取正确与错误的推理样本。由于数据集规模小巧(共312条样本),非常适合作为微调或评估的基准集。对于default子集,可用于训练模型学习正确的解题推理路径;而wrong子集则特别适合用于错误分析、对比学习或构建负样本增强数据集。用户还可利用数据中的ground_truth_normalized字段进行自动化评估,或结合boxed_answer与cot_text字段开发针对数学推理的奖励模型。建议在使用时注意数据集来源于特定模型(GPT-OSS-20B),其推理模式可能与其他模型存在差异,因此跨模型泛化分析时应谨慎处理。
背景与挑战
背景概述
该数据集名为correct-solutions-gpt-oss-20b-aime26,专注于评估和提升大型语言模型在数学推理任务中的表现,特别是针对AIME(美国数学邀请赛)级别的高难度数学问题。数据集创建于近期,由致力于开放源码大模型优化的研究团队构建,旨在系统性地收集并分析模型在解题过程中的正确与错误输出。核心研究问题在于探索GPT风格模型在复杂数学推理中的能力边界,并为后续的模型微调与提示工程提供高质量的标注数据。通过对156道精选问题的多轮次求解记录,该数据集为衡量模型推理稳定性与准确性提供了宝贵基准,对推动数学领域的大模型应用具有重要影响。
当前挑战
该数据集面临的挑战主要来自两方面。领域问题层面,高难度数学推理要求模型不仅理解自然语言问题,还需进行多步骤的符号运算与逻辑推导,而现有大模型在此类任务中常出现计算错误、逻辑断裂或虚假推理链,构建该数据集正是为了系统捕获并分析这些典型失败模式。构建过程中,挑战在于设计合理的多轮尝试机制与错误分类标准,确保每个求解记录既能反映模型真实能力,又能准确区分因偶然性导致的正确与系统性错误,同时平衡数据规模与标注质量,以服务于后续的针对性训练与评估。
常用场景
经典使用场景
在数学推理与人工智能的交叉领域中,correct-solutions-gpt-oss-20b-aime26数据集为评估和提升大语言模型的符号推理能力提供了关键基准。该数据集源自美国数学邀请赛(AIME)的26道高难度竞赛题,每道题目均包含由开源20B参数模型生成的正确解答步骤、链式思维推理过程以及归一化后的标准答案。研究者可借助该数据集,系统性地分析模型在复杂数学问题上的解题路径,对比不同采样策略(如多轮尝试次数)对最终正确率的影响,从而深入理解模型在形式化推理任务中的行为模式与局限。
实际应用
在实际应用层面,该数据集可被直接用于构建智能数学辅导系统的核心评估模块。教育科技企业能够借助其中结构化的正确与错误解题范例,训练模型不仅输出最终答案,还能生成分步的、可验证的推理过程,从而为学生提供精准的错因分析与个性化指导。此外,数据集中的多轮尝试记录可用于优化模型的自我纠错机制,使AI助手在用户遇到难题时能主动调整解题策略。该资源还可服务于竞赛培训场景,帮助自动化生成与AIME难度相当的模拟试题,并辅助教师快速评估学生的思维链路。
衍生相关工作
该数据集的发布催生了若干具有影响力的后续研究工作。在方法论层面,研究者基于其失败案例构建了‘错误驱动迭代训练’框架,通过刻意让模型在易错题上反复练习,显著提升了其在更广泛数学基准上的表现。在模型评估方面,衍生工作提出了‘推理深度评分’指标,利用数据集中完整的链式思维标注,量化模型在每一步的逻辑连贯性。此外,该数据集还被用于验证‘多智能体协作推理’范式,即让多个不同架构的模型针对同一道题目交换解答步骤,最终投票选出最优答案,这些工作共同推动了数学推理领域从‘答案导向’向‘过程可解释’的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作