pss_sal2

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/pss0204/pss_sal2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个版本，每个版本都有特定的配置和特征，例如问题、解决方案、答案、主题、级别、唯一标识符和各种分数和预测。每个版本都有不同的数据量和下载大小。

创建时间：

2025-05-01

原始信息汇总

数据集概述

基本信息

数据集名称: pss_sal2
数据集地址: https://huggingface.co/datasets/pss0204/pss_sal2

数据集配置

数据集包含以下配置：

1. MATH-500_Llama-1B_best_of_n_128_v1

特征:
- problem, solution, answer, subject, level, unique_id, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, sqrt_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16, pred_weighted@32, pred_maj@32, pred_naive@32, pred_weighted@64, pred_maj@64, pred_naive@64, pred_weighted@128, pred_maj@128, pred_naive@128
数据量:
- train: 10个样本，886846字节
下载大小: 298486字节
数据集大小: 886846字节

2. MATH-500_Llama-1B_best_of_n_1_v1

特征:
- problem, solution, answer, subject, level, unique_id, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1
数据量:
- train: 500个样本，2140350字节
下载大小: 904975字节
数据集大小: 2140350字节

3. MATH-500_Llama-1B_best_of_n_1_v3

特征:
- problem, solution, answer, subject, level, unique_id, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, sqrt_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1
数据量:
- train: 500个样本，2146350字节
下载大小: 906577字节
数据集大小: 2146350字节

4. MATH-500_Llama-1B_best_of_n_64_v1

特征:
- problem, solution, answer, subject, level, unique_id, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16, pred_weighted@32, pred_maj@32, pred_naive@32, pred_weighted@64, pred_maj@64, pred_naive@64
数据量:
- train: 500个样本，56452013字节
下载大小: 17905778字节
数据集大小: 56452013字节

5. MATH-500_Llama-1B_best_of_n_64_v1--evals

特征:
- n, acc_naive, acc_weighted, acc_maj
数据量:
- train: 7个样本，224字节
下载大小: 2112字节
数据集大小: 224字节

6. MATH-500_Llama-1B_dynamic_earlystop_16_v1

特征:
- problem, solution, answer, subject, level, unique_id, completions, scores, pred, steps_taken, ucb_threshold_used, powered_max_scores, problem_processing_times, approach, simple_pred, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16
数据量:
- train: 10个样本，886126字节
下载大小: 292275字节
数据集大小: 886126字节

7. MATH-500_Llama-1B_dynamic_earlystop_16_v3

特征:
- problem, solution, answer, subject, level, unique_id, completions, scores, pred, steps_taken, ucb_threshold_used, powered_max_scores, problem_processing_times, approach, simple_pred, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16
数据量:
- train: 10个样本，811166字节
下载大小: 258993字节
数据集大小: 811166字节

8. MATH-500_Llama-1B_dynamic_earlystop_16_v5

特征:
- problem, solution, answer, subject, level, unique_id, completions, scores, pred, steps_taken, ucb_threshold_used, powered_max_scores, problem_processing_times, approach, simple_pred, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16
数据量:
- train: 500个样本，38407946字节
下载大小: 12130744字节
数据集大小: 38407946字节

9. gsm8k_Llama-1B_best_of_n_1_v1

特征:
- problem, answer, full_answer, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1
数据量:
- train: 1000个样本，2156354字节
下载大小: 980866字节
数据集大小: 2156354字节

搜集汇总

数据集介绍

构建方式

该数据集基于数学问题求解领域，通过Llama-1B模型生成多组解答方案，并采用best_of_n策略进行优化筛选。数据构建过程中，每个数学问题均包含问题描述、标准解答、参考答案及学科分类等核心字段，同时记录了模型生成解答的时间消耗、评分及多种预测结果。数据分多个版本存储，包括不同采样数量（n=1,64,128）和动态早停策略的变体，确保了数据的多样性和可扩展性。

使用方法

使用者可通过HuggingFace接口直接加载特定配置的数据版本，如MATH-500_Llama-1B_best_of_n_64_v1。数据字段包含原始问题、模型输出及评估指标，适合用于数学自动求解模型的性能对比研究。对于动态早停版本，可分析steps_taken和ucb_threshold_used等字段研究早停策略效果。评估版本（--evals）提供不同n值下的准确率统计，便于绘制模型性能随采样数量变化的曲线。

背景与挑战

背景概述

pss_sal2数据集是近年来在数学问题求解与语言模型评估领域涌现的重要资源，由前沿研究团队基于Llama-1B模型构建。该数据集聚焦于探索大语言模型在数学推理任务中的表现，特别设计了包含问题描述、解题步骤、标准答案及多维度评分的结构化数据。其核心价值在于通过500道数学题的多版本生成结果（如best_of_n系列和dynamic_earlystop系列），为研究语言模型的推理能力、答案生成策略及评估方法提供了标准化测试平台。数据集中精细设计的特征如powered_scores、agg_scores等指标，反映了当前AI数学推理领域对量化评估体系的前沿探索。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，数学推理需要模型同时具备公式理解、逻辑推导和符号运算能力，而当前语言模型在复杂数学概念的形式化表达和逐步推理方面仍存在显著差距。在构建过程中，研究者需解决多版本答案的质量控制问题，包括生成结果的多样性平衡（如best_of_n参数优化）、早期停止策略的动态阈值设定（如dynamic_earlystop的UCB机制），以及评分体系的科学设计（如powered_scores与sqrt_scores的数学合理性）。这些挑战直接影响了数据集作为评估基准的可靠性和泛化能力。

常用场景

经典使用场景

在数学问题求解领域，pss_sal2数据集为研究者提供了丰富的数学问题及其解决方案，涵盖了不同难度级别和主题。该数据集最经典的使用场景是评估和比较不同语言模型在数学问题求解任务上的性能。通过分析模型生成的解决方案与标准答案的匹配程度，研究者能够深入理解模型在复杂数学推理任务中的表现。

解决学术问题

pss_sal2数据集解决了数学问题求解领域中的多个关键学术问题，包括模型在数学推理任务中的泛化能力、不同求解策略的效果比较以及模型在复杂问题中的表现评估。该数据集通过提供多样化的数学问题和详细的解决方案，为研究者提供了一个标准化的评估平台，推动了数学问题求解领域的研究进展。

实际应用

在实际应用中，pss_sal2数据集可用于开发智能辅导系统，帮助学生理解和解决数学问题。此外，该数据集还可用于优化语言模型在数学问题求解任务中的表现，提升模型在教育、科研等领域的实用价值。通过利用数据集中的问题和解决方案，开发者能够构建更加智能和高效的数学辅助工具。

数据集最近研究