five

pss_sal2

收藏
Hugging Face2025-05-02 更新2025-05-03 收录
下载链接:
https://huggingface.co/datasets/pss0204/pss_sal2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个版本,每个版本都有特定的配置和特征,例如问题、解决方案、答案、主题、级别、唯一标识符和各种分数和预测。每个版本都有不同的数据量和下载大小。
创建时间:
2025-05-01
原始信息汇总

数据集概述

基本信息

  • 数据集名称: pss_sal2
  • 数据集地址: https://huggingface.co/datasets/pss0204/pss_sal2

数据集配置

数据集包含以下配置:

1. MATH-500_Llama-1B_best_of_n_128_v1

  • 特征:
    • problem, solution, answer, subject, level, unique_id, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, sqrt_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16, pred_weighted@32, pred_maj@32, pred_naive@32, pred_weighted@64, pred_maj@64, pred_naive@64, pred_weighted@128, pred_maj@128, pred_naive@128
  • 数据量:
    • train: 10个样本,886846字节
  • 下载大小: 298486字节
  • 数据集大小: 886846字节

2. MATH-500_Llama-1B_best_of_n_1_v1

  • 特征:
    • problem, solution, answer, subject, level, unique_id, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1
  • 数据量:
    • train: 500个样本,2140350字节
  • 下载大小: 904975字节
  • 数据集大小: 2140350字节

3. MATH-500_Llama-1B_best_of_n_1_v3

  • 特征:
    • problem, solution, answer, subject, level, unique_id, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, sqrt_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1
  • 数据量:
    • train: 500个样本,2146350字节
  • 下载大小: 906577字节
  • 数据集大小: 2146350字节

4. MATH-500_Llama-1B_best_of_n_64_v1

  • 特征:
    • problem, solution, answer, subject, level, unique_id, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16, pred_weighted@32, pred_maj@32, pred_naive@32, pred_weighted@64, pred_maj@64, pred_naive@64
  • 数据量:
    • train: 500个样本,56452013字节
  • 下载大小: 17905778字节
  • 数据集大小: 56452013字节

5. MATH-500_Llama-1B_best_of_n_64_v1--evals

  • 特征:
    • n, acc_naive, acc_weighted, acc_maj
  • 数据量:
    • train: 7个样本,224字节
  • 下载大小: 2112字节
  • 数据集大小: 224字节

6. MATH-500_Llama-1B_dynamic_earlystop_16_v1

  • 特征:
    • problem, solution, answer, subject, level, unique_id, completions, scores, pred, steps_taken, ucb_threshold_used, powered_max_scores, problem_processing_times, approach, simple_pred, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16
  • 数据量:
    • train: 10个样本,886126字节
  • 下载大小: 292275字节
  • 数据集大小: 886126字节

7. MATH-500_Llama-1B_dynamic_earlystop_16_v3

  • 特征:
    • problem, solution, answer, subject, level, unique_id, completions, scores, pred, steps_taken, ucb_threshold_used, powered_max_scores, problem_processing_times, approach, simple_pred, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16
  • 数据量:
    • train: 10个样本,811166字节
  • 下载大小: 258993字节
  • 数据集大小: 811166字节

8. MATH-500_Llama-1B_dynamic_earlystop_16_v5

  • 特征:
    • problem, solution, answer, subject, level, unique_id, completions, scores, pred, steps_taken, ucb_threshold_used, powered_max_scores, problem_processing_times, approach, simple_pred, simple_pred_weighted, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1, pred_weighted@2, pred_maj@2, pred_naive@2, pred_weighted@4, pred_maj@4, pred_naive@4, pred_weighted@8, pred_maj@8, pred_naive@8, pred_weighted@16, pred_maj@16, pred_naive@16
  • 数据量:
    • train: 500个样本,38407946字节
  • 下载大小: 12130744字节
  • 数据集大小: 38407946字节

9. gsm8k_Llama-1B_best_of_n_1_v1

  • 特征:
    • problem, answer, full_answer, prm_time, llm_time, completions, scores, pred, completion_tokens, powered_scores, current_n, approach, problem_processing_times, prm_ratio, llm_ratio, agg_scores, selected_agg_scores, aggscore_level, pred_weighted@1, pred_maj@1, pred_naive@1
  • 数据量:
    • train: 1000个样本,2156354字节
  • 下载大小: 980866字节
  • 数据集大小: 2156354字节
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于数学问题求解领域,通过Llama-1B模型生成多组解答方案,并采用best_of_n策略进行优化筛选。数据构建过程中,每个数学问题均包含问题描述、标准解答、参考答案及学科分类等核心字段,同时记录了模型生成解答的时间消耗、评分及多种预测结果。数据分多个版本存储,包括不同采样数量(n=1,64,128)和动态早停策略的变体,确保了数据的多样性和可扩展性。
使用方法
使用者可通过HuggingFace接口直接加载特定配置的数据版本,如MATH-500_Llama-1B_best_of_n_64_v1。数据字段包含原始问题、模型输出及评估指标,适合用于数学自动求解模型的性能对比研究。对于动态早停版本,可分析steps_taken和ucb_threshold_used等字段研究早停策略效果。评估版本(--evals)提供不同n值下的准确率统计,便于绘制模型性能随采样数量变化的曲线。
背景与挑战
背景概述
pss_sal2数据集是近年来在数学问题求解与语言模型评估领域涌现的重要资源,由前沿研究团队基于Llama-1B模型构建。该数据集聚焦于探索大语言模型在数学推理任务中的表现,特别设计了包含问题描述、解题步骤、标准答案及多维度评分的结构化数据。其核心价值在于通过500道数学题的多版本生成结果(如best_of_n系列和dynamic_earlystop系列),为研究语言模型的推理能力、答案生成策略及评估方法提供了标准化测试平台。数据集中精细设计的特征如powered_scores、agg_scores等指标,反映了当前AI数学推理领域对量化评估体系的前沿探索。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,数学推理需要模型同时具备公式理解、逻辑推导和符号运算能力,而当前语言模型在复杂数学概念的形式化表达和逐步推理方面仍存在显著差距。在构建过程中,研究者需解决多版本答案的质量控制问题,包括生成结果的多样性平衡(如best_of_n参数优化)、早期停止策略的动态阈值设定(如dynamic_earlystop的UCB机制),以及评分体系的科学设计(如powered_scores与sqrt_scores的数学合理性)。这些挑战直接影响了数据集作为评估基准的可靠性和泛化能力。
常用场景
经典使用场景
在数学问题求解领域,pss_sal2数据集为研究者提供了丰富的数学问题及其解决方案,涵盖了不同难度级别和主题。该数据集最经典的使用场景是评估和比较不同语言模型在数学问题求解任务上的性能。通过分析模型生成的解决方案与标准答案的匹配程度,研究者能够深入理解模型在复杂数学推理任务中的表现。
解决学术问题
pss_sal2数据集解决了数学问题求解领域中的多个关键学术问题,包括模型在数学推理任务中的泛化能力、不同求解策略的效果比较以及模型在复杂问题中的表现评估。该数据集通过提供多样化的数学问题和详细的解决方案,为研究者提供了一个标准化的评估平台,推动了数学问题求解领域的研究进展。
实际应用
在实际应用中,pss_sal2数据集可用于开发智能辅导系统,帮助学生理解和解决数学问题。此外,该数据集还可用于优化语言模型在数学问题求解任务中的表现,提升模型在教育、科研等领域的实用价值。通过利用数据集中的问题和解决方案,开发者能够构建更加智能和高效的数学辅助工具。
数据集最近研究
最新研究方向
在数学问题求解领域,pss_sal2数据集的最新研究方向聚焦于利用大型语言模型(如Llama-1B)进行数学问题的自动求解与评估。该数据集通过整合多种评估指标(如加权预测、多数投票预测和朴素预测)以及动态早期停止策略,探索模型在不同复杂度数学问题上的表现。前沿研究正致力于优化模型的求解效率与准确性,特别是在处理高难度数学问题时,如何通过动态调整计算资源和策略来提升性能。这一研究方向不仅推动了数学教育智能化的发展,也为自然语言处理与数学推理的结合提供了新的实验平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作