CoRA-eval-scaling

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/CohenQu/CoRA-eval-scaling

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含多个配置，每个配置包含问题、答案、响应、奖励和平均奖励等特征。数据被分为测试集，每个测试集的大小和示例数量都有所不同。这些配置略有差异，但总体结构相似。

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在数学推理评估领域，CoRA-eval-scaling数据集的构建采用了多配置实验设计，通过Qwen3-1.7B模型对AIME2025竞赛题目进行无提示条件下的系统化采样。每个配置对应特定参数组合，生成30个测试样本，涵盖问题描述、标准答案、模型响应序列及奖励评分，确保了数据在复杂数学问题上的代表性和可扩展性。

特点

该数据集以高难度数学问题为核心，每个条目包含原始问题、参考答案、多轮模型生成响应及其对应的奖励序列，并计算平均奖励值以量化性能。其结构化的序列字段支持对模型推理过程的细粒度分析，而统一的测试分割设计保障了评估的一致性和可比性，适用于大规模语言模型的数学能力基准测试。

使用方法

研究人员可通过加载特定配置名称直接访问数据集，利用问题与响应序列进行模型输出质量评估，结合奖励值分析模型在不同数学场景下的稳定性。该资源适用于自动化评估流水线，支持跨配置对比实验，为数学推理模型的迭代优化提供实证基础。

背景与挑战

背景概述

在人工智能数学推理领域，CoRA-eval-scaling数据集作为评估模型扩展能力的重要基准应运而生。该数据集聚焦于美国数学邀请赛（AIME）2025年试题的自动求解任务，通过系统化收集Qwen3-1.7B模型在无提示条件下的多轮响应数据，旨在探索语言模型在复杂数学问题中的泛化性能与规模扩展规律。其核心研究价值在于构建可量化的评估框架，为数学推理模型的课程学习机制与奖励信号设计提供实证基础，推动认知密集型任务的技术突破。

当前挑战

该数据集需应对数学推理领域固有的符号运算歧义性与多步推导容错性挑战，同时需解决评估过程中模型响应多样性度量与奖励函数设计的理论难题。在构建层面，面临试题语义完整性保持、跨难度级配平衡以及响应序列标注一致性等操作挑战，还需克服大规模推理轨迹存储与计算资源优化之间的技术矛盾。

常用场景

经典使用场景

在数学推理领域，CoRA-eval-scaling数据集通过AIME竞赛题目构建评估框架，涵盖问题、答案、多模型响应及奖励评分序列，为研究语言模型在复杂数学问题求解中的性能提供了标准化测试环境。该数据集典型应用于对比不同规模模型在无提示条件下的推理能力，通过量化奖励机制揭示模型在逐步解题过程中的稳定性与准确性。

解决学术问题

该数据集有效解决了大语言模型数学推理能力评估中的基准缺失问题，通过结构化数据揭示了模型在高级数学竞赛题目中的表现规律。其意义在于建立了可量化的评估体系，为研究模型规模与数学推理能力的缩放定律提供了实证基础，推动了人工智能在复杂逻辑推理任务中的可解释性研究。

衍生相关工作

基于该数据集衍生的研究主要聚焦于课程学习策略的优化，如Curriculum-Enhanced Training等工作通过分析奖励信号与题目难度关联，提出了渐进式训练范式。相关研究还探索了多模态数学推理框架，将符号计算与自然语言理解相结合，推动了数学人工智能向更高层次的抽象推理发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集