long-sr-Qwen2.5-7B-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions

Hugging Face2025-04-13 更新2025-04-14 收录

下载链接：

https://huggingface.co/datasets/mothnaZl/long-sr-Qwen2.5-7B-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个数学任务相关的数据集，包含了多项指标，如朴素准确率、加权准确率、多数通过准确率、通过率、文本多样性指标以及不同长度文本片段的统计信息。数据集分为训练集，每个训练集包含不同的样本数量。数据集适用于数学任务模型训练和评估。

创建时间：

2025-04-13

原始信息汇总

数据集概述

基本信息

数据集名称: long-sr-Qwen2.5-7B-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions
数据集地址: https://huggingface.co/datasets/mothnaZl/long-sr-Qwen2.5-7B-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions

数据集配置

数据集包含以下三个配置：

配置1

配置名称: mothnaZl_minerva_math--T-0--top_p-1.0--n-1--seed-0--agg_strategy-last--merged--evals
特征:
- n (int64)
- acc_naive (float64)
- acc_weighted (float64)
- acc_maj (float64)
- pass@n (float64)
- div_avg (float64)
- div_sum (float64)
- div_mean (float64)
- Unigrams (float64)
- Bigrams (float64)
- Trigrams (float64)
- Fourgrams (float64)
- pass_tag (sequence: null)
- BM25 (int64)
数据分割:
- train (num_bytes: 108, num_examples: 1)
下载大小: 6024
数据集大小: 108

配置2

配置名称: mothnaZl_minerva_math--T-0--top_p-1.0--n-1--seed-0--agg_strategy-last--num-shots-0--prompt_type-self-rewarding-qwen25-math-cot--merged--evals
特征: 同配置1
数据分割:
- train (num_bytes: 108, num_examples: 1)
下载大小: 6024
数据集大小: 108

配置3

配置名称: mothnaZl_minerva_math--T-0.8--top_p-1.0--n-128--seed-0--agg_strategy-last--num-shots-0--prompt_type-self-rewarding-qwen25-math-cot--merged--evals
特征: 同配置1
数据分割:
- train (num_bytes: 864, num_examples: 8)
下载大小: 6649
数据集大小: 864

数据文件路径

配置1: mothnaZl_minerva_math--T-0--top_p-1.0--n-1--seed-0--agg_strategy-last--merged--evals/train-*
配置2: mothnaZl_minerva_math--T-0--top_p-1.0--n-1--seed-0--agg_strategy-last--num-shots-0--prompt_type-self-rewarding-qwen25-math-cot--merged--evals/train-*
配置3: mothnaZl_minerva_math--T-0.8--top_p-1.0--n-128--seed-0--agg_strategy-last--num-shots-0--prompt_type-self-rewarding-qwen25-math-cot--merged--evals/train-*

搜集汇总

数据集介绍

构建方式

在数学推理任务评估领域，该数据集采用多配置策略构建，通过VLLM框架生成Qwen2.5-7B模型的多组推理结果。构建过程中设置了不同的温度参数（T=0/T=0.8）、采样数量（n=1/n=128）以及聚合策略（last），并引入自奖励提示机制（self-rewarding-qwen25-math-cot）来优化数学链式推理过程。数据采集涵盖零样本（num-shots=0）场景下的模型表现，通过BM25算法和n-gram多样性指标对生成质量进行量化评估。

特点

该数据集最显著的特征在于其多维评估指标体系，不仅包含传统准确率指标（acc_naive/acc_weighted），还创新性地整合了通过率（pass@n）、文本多样性（div_avg/div_sum）和n-gram分析（Unigrams-Fourgrams）等维度。特别值得注意的是配置间的对比设计，如确定性采样（T=0）与随机采样（T=0.8）的并行实验数据，为研究温度参数对数学推理稳定性的影响提供了实证基础。数据结构的紧凑性（最大配置仅864字节）确保了高效传输与分析。

使用方法

研究者可通过HuggingFace平台直接加载特定配置（如mothnaZl_minerva_math--T-0.8--top_p-1.0--n-128）进行模型性能分析。典型应用场景包括：对比不同采样策略下pass@n指标的变化规律，通过div_mean评估生成结果的多样性，或借助BM25分数分析文本相似度。对于数学推理研究，建议优先考察acc_weighted与pass_tag序列的关联性，同时结合Fourgrams指标验证专业术语使用的准确性。数据集轻量化的特点支持快速进行多轮交叉验证。

背景与挑战

背景概述

long-sr-Qwen2.5-7B-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions数据集是针对数学问题求解领域开发的高性能评估工具，由前沿研究团队基于Qwen2.5-7B语言模型架构构建。该数据集通过集成自我奖励机制（self-rewarding）和思维链（Chain-of-Thought）提示策略，专门设计用于评估模型在复杂数学推理任务中的多维度表现。其核心研究价值体现在创新性地融合了传统准确率指标（如pass@n）与文本多样性度量（如n-gram分析），为衡量大语言模型的数学推理能力提供了新的评估范式。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确量化模型在开放域数学推理中的表现仍存在困难，特别是当模型生成结果涉及多步推导或非确定性解时，现有评估指标可能无法全面反映真实能力。在构建技术层面，平衡采样策略的温度参数（T=0.8）与生成多样性（n=128）之间的动态关系需要精细调控，而自我奖励机制中的偏差累积问题可能影响评估结果的稳定性。此外，不同n-gram度量指标间的相关性分析及权重分配尚未形成统一标准，这对跨研究比较提出了挑战。

常用场景

经典使用场景

在数学推理与自动解题领域，long-sr-Qwen2.5-7B数据集通过多配置评估指标（如pass@n、n-gram多样性等），为大型语言模型的数学推理能力提供了标准化测试框架。其典型应用场景包括模型在零样本或少样本条件下生成数学解题步骤的准确性评估，以及不同解码策略（如top-p采样）对数学推理性能的影响分析。

衍生相关工作

该数据集催生了多项重要研究，包括基于自奖励机制的数学推理模型优化方法、多候选解聚合策略（agg_strategy）的对比研究，以及温度参数（T）对数学推理多样性的影响分析。相关成果已应用于Minerva-math等专业数学模型的开发，推动了few-shot数学推理技术的进步。

数据集最近研究