s1-Qwen2.5-7B-Instruct-5-0.5-6-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions

Hugging Face2025-05-04 更新2025-05-05 收录

下载链接：

https://huggingface.co/datasets/mothnaZl/s1-Qwen2.5-7B-Instruct-5-0.5-6-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个数学竞赛数据集，包含多个配置的数据，每个配置都有相同的特征集，包括问题的难度（n）、不同模型的准确率（acc_naive, acc_weighted, acc_maj）、通过率（pass@n）、各种n-gram统计信息（Unigrams, Bigrams, Trigrams, Fourgrams）、平均分数（div_avg）、总分（div_sum）、平均分（div_mean）和一个BM25值。数据集分为训练集，不同的配置具有不同数量的示例和大小。

创建时间：

2025-05-03

原始信息汇总

数据集概述

基本信息

数据集名称：mothnaZl/s1-Qwen2.5-7B-Instruct-5-0.5-6-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions
数据集地址：https://huggingface.co/datasets/mothnaZl/s1-Qwen2.5-7B-Instruct-5-0.5-6-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions

配置信息

数据集包含以下三个配置：

配置1

配置名称：FUfu99_OlympiadBench_maths_origin--T-0.8--top_p-1.0--n-1--seed-0--agg_strategy-last--num-shots-0--prompt_type-None--merged--evals
特征：
- n (int64)
- acc_naive (float64)
- acc_weighted (float64)
- acc_maj (float64)
- pass@n (float64)
- div_avg (float64)
- div_sum (float64)
- div_mean (float64)
- Unigrams (float64)
- Bigrams (float64)
- Trigrams (float64)
- Fourgrams (float64)
- pass_tag (sequence: null)
- BM25 (int64)
数据分割：
- train: 1个样本，108字节
下载大小：6024字节
数据集大小：108字节

配置2

配置名称：FUfu99_OlympiadBench_maths_origin--T-0.8--top_p-1.0--n-128--seed-0--agg_strategy-last--num-shots-0--prompt_type-None--merged--evals
特征：同配置1
数据分割：
- train: 8个样本，864字节
下载大小：6671字节
数据集大小：864字节

配置3

配置名称：FUfu99_OlympiadBench_maths_origin--T-0.8--top_p-1.0--n-8--seed-0--agg_strategy-last--num-shots-0--prompt_type-None--merged--evals
特征：同配置1
数据分割：
- train: 1个样本，108字节
下载大小：6024字节
数据集大小：108字节

数据文件路径

配置1：FUfu99_OlympiadBench_maths_origin--T-0.8--top_p-1.0--n-1--seed-0--agg_strategy-last--num-shots-0--prompt_type-None--merged--evals/train-*
配置2：FUfu99_OlympiadBench_maths_origin--T-0.8--top_p-1.0--n-128--seed-0--agg_strategy-last--num-shots-0--prompt_type-None--merged--evals/train-*
配置3：FUfu99_OlympiadBench_maths_origin--T-0.8--top_p-1.0--n-8--seed-0--agg_strategy-last--num-shots-0--prompt_type-None--merged--evals/train-*

搜集汇总

数据集介绍

构建方式

该数据集基于数学竞赛领域的实际需求构建，采用多配置策略生成评估数据。通过设置不同的温度参数（T=0.8）、top_p采样值（1.0）以及样本数量（n=1/8/128），在零样本提示条件下生成多样化的模型输出。数据聚合采用最终策略（agg_strategy-last），确保评估结果的代表性。特征工程涵盖准确率指标（acc_naive/weighted/maj）、多样性度量（div_avg/sum/mean）及n-gram分析，为模型性能提供多维度的量化标准。

特点

数据集突出表现为多层次评估框架的设计，包含基础准确率、加权准确率和多数表决准确率三重验证机制。通过pass@n指标量化模型生成有效解的概率，配合Unigrams到Fourgrams的语言模型分析，深入揭示文本生成特性。BM25检索分数与多样性指标的并存，实现了生成质量与内容丰富度的双重评估。不同样本量配置（1/8/128）形成对比实验组，为研究采样数量对模型性能的影响提供实证基础。

使用方法

研究者可通过加载指定配置名称获取对应实验条件下的评估数据，如FUfu99_OlympiadBench_maths_origin--T-0.8--top_p-1.0--n-128系列。各特征字段可直接用于统计分析，其中pass_tag序列配合pass@n指标可计算模型通过率，多样性指标与n-gram特征适用于生成文本的质量评估。建议交叉比对不同n值配置下的acc_weighted与div_mean指标，综合判断模型在数学问题求解任务中的性能表现。

背景与挑战

背景概述

s1-Qwen2.5-7B-Instruct-5-0.5-6-best_of_n-VLLM-Skywork-o1-Open-PRM-Qwen-2.5-7B-completions数据集是面向数学奥林匹克竞赛领域的评估基准，旨在测试和提升大型语言模型在复杂数学问题解决中的性能。该数据集由研究团队基于Qwen2.5-7B模型构建，通过多轮生成与评估策略，探索模型在数学推理和问题解决方面的潜力。其核心研究问题聚焦于如何通过多样化的生成策略提高模型在数学竞赛题目上的准确性和鲁棒性，为相关领域的模型优化提供了重要参考。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，数学奥林匹克竞赛题目通常具有高度的复杂性和抽象性，要求模型具备强大的逻辑推理和数学运算能力，如何准确评估模型在此类问题上的表现成为关键难题；其二，数据集的构建过程中，多样化的生成策略（如不同温度参数和top_p设置）增加了评估的复杂性，如何在保证生成多样性的同时维持结果的高质量，是技术实现上的主要挑战。

常用场景

经典使用场景

在自然语言处理领域，该数据集主要用于评估大型语言模型在数学竞赛题目上的表现。通过多组参数配置下的测试，研究人员能够深入分析模型在不同复杂度数学问题上的准确率、多样性和稳定性。数据集特别关注模型生成答案的多样性指标，为研究语言模型的推理能力提供了标准化测试平台。

解决学术问题

该数据集有效解决了语言模型在复杂数学推理任务中的评估难题。通过提供精确的准确率计算（如pass@n）和多样性度量（如n-gram分析），填补了现有研究在量化模型数学能力方面的空白。其多维度评估框架为比较不同模型的数学推理性能建立了统一标准，推动了语言模型在复杂认知任务中的研究进展。

衍生相关工作

该数据集已催生多项关于语言模型数学能力的研究工作。学者们基于其评估框架，提出了改进模型数学推理的新型架构设计。部分研究聚焦于数据集中发现的典型错误模式，开发了专门的数学知识注入方法。另有工作扩展了该数据集的评估维度，建立了更全面的数学能力测评体系。

以上内容由遇见数据集搜集并总结生成