ko-ko-math-500-test-Qwen2.5-3B-Instruct-dvts

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/ENSEONG/ko-ko-math-500-test-Qwen2.5-3B-Instruct-dvts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置，分别使用不同的随机种子（0、42、64），每个配置包含500个训练样本。数据集主要围绕数学问题解决任务，包含以下核心字段：问题描述（problem）、解决方案（solution）、答案（answer）、学科类别（subject）、难度等级（level）和唯一标识符（id）。此外，数据集还包含大量与模型预测相关的字段，包括多组完成结果（completions）、预测结果（pred）、完成标记数（completion_tokens）、评分（scores）、聚合评分（agg_scores）以及多种预测策略下的结果（如pred_weighted@N、pred_maj@N、pred_naive@N等）。评估指标包括不同样本量下的通过率（pass@N）。数据集结构表明其主要用于评估模型在数学问题解决任务中的性能，特别是不同预测策略和样本规模下的表现。

创建时间：

2026-02-02

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，评估大型语言模型的推理能力已成为关键研究方向。ko-ko-math-500-test-Qwen2.5-3B-Instruct-dvts数据集的构建，采用了基于Qwen2.5-3B-Instruct模型的多样化推理路径生成策略。具体而言，针对500个韩语数学测试问题，模型在温度参数T=0.8、top_p=1.0的设置下，为每个问题生成了64个独立的解答序列。通过40次迭代的推理过程，并采用“last”聚合策略，最终形成了包含原始问题、标准解、答案及多维度预测结果的综合数据集。该构建方法旨在模拟模型在开放生成环境下的表现，为分析其稳定性和一致性提供了丰富的数据基础。

特点

该数据集的核心特征在于其详尽的多解空间记录与系统化的评估指标。每个数据样本不仅包含问题、标准答案和学科分类，更记录了模型生成的64条完整推理链及其对应的置信度分数。数据集通过pred_weighted、pred_maj、pred_naive等多种聚合方式，在不同采样规模下（如@1, @2, ..., @64）提供了预测结果，并计算了相应的pass@k准确率。这种设计使得研究者能够深入探究模型输出的概率分布、多数表决效应与加权投票策略之间的差异，为理解语言模型在数学推理任务中的不确定性提供了前所未有的细粒度视角。

使用方法

研究者可利用该数据集进行多方面的模型评估与比较分析。数据集以标准格式存储，可通过HuggingFace库直接加载，其三个配置版本对应不同的随机种子，便于进行鲁棒性检验。使用时可提取completions字段分析模型生成的原始推理文本，结合scores和agg_scores评估生成质量。通过对比不同聚合策略下的pred_*字段与标准答案，能够量化模型在少样本到多样本生成场景下的性能变化。pass@k指标则为衡量模型在数学问题求解中的整体能力提供了直接依据，支持对模型推理一致性与可靠性的深入研究。

背景与挑战

背景概述

在人工智能与数学推理交叉领域，评估大型语言模型的数学问题解决能力已成为核心研究议题。ko-ko-math-500-test-Qwen2.5-3B-Instruct-dvts数据集应运而生，旨在系统评估Qwen2.5-3B-Instruct模型在韩语数学问题上的表现。该数据集由ENSEONG团队构建，包含500个涵盖多学科、多难度级别的数学问题，每个问题均配有标准答案与详细解题步骤。其设计聚焦于探究模型在复杂数学推理任务中的泛化能力与稳定性，通过多轮采样与聚合策略生成预测结果，为韩语数学智能评估提供了标准化基准，推动了多语言数学推理模型的发展。

当前挑战

该数据集致力于解决数学问题自动求解领域的核心挑战，即如何准确评估模型在多样化、结构化数学问题上的推理精度与鲁棒性。构建过程中面临多重挑战：一是确保韩语数学问题的学科覆盖广度与难度层次均衡，需精心设计题目内容与评分标准；二是生成高质量的多重预测结果并进行有效聚合，涉及复杂采样参数（如温度、top-p）与种子设置的优化；三是准确计算pass@k等评估指标，以量化模型在不同尝试次数下的性能表现，这对评估框架的可靠性与一致性提出了较高要求。

常用场景

经典使用场景

在数学推理领域，该数据集为评估大型语言模型的数学问题解决能力提供了标准化测试平台。其经典使用场景在于通过多样化的数学题目，涵盖不同学科主题和难度级别，系统性地检验模型生成解决方案的准确性与逻辑一致性。研究人员利用数据集中的问题、标准答案及模型生成的多个候选解，结合pass@k等评估指标，量化模型在数学推理任务上的性能表现，从而推动模型优化与比较研究。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在数学推理模型的评估方法论创新上。例如，基于pass@k指标的比较研究探讨了采样数量与模型性能的关系；针对不同聚合策略如加权投票与多数表决的实证分析，深化了对模型输出一致性的理解。这些工作不仅拓展了数学问题求解的评估体系，还促进了如思维链提示、自洽性解码等先进技术在复杂推理任务中的应用与改进。

数据集最近研究