ko-ko-math-500-test-Qwen2.5-3B-Instruct-bon

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/ENSEONG/ko-ko-math-500-test-Qwen2.5-3B-Instruct-bon

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置，每个配置包含500个数学问题及其相关数据。每个样本包括问题描述、解决方案、答案、学科类别、难度等级和唯一ID。此外，数据集还包含多个生成完成项、评分列表、预测结果以及不同策略下的加权预测和多数投票预测。数据集还提供了从1到64不同规模的通过率指标（pass@1到pass@64），可用于评估模型在数学问题解决任务中的表现。数据以字符串和数值形式存储，总大小约为48-49MB每个配置。

创建时间：

2026-02-02

原始信息汇总

数据集概述

基本信息

数据集名称: ko-ko-math-500-test-Qwen2.5-3B-Instruct-bon
存储地址: https://huggingface.co/datasets/ENSEONG/ko-ko-math-500-test-Qwen2.5-3B-Instruct-bon
配置数量: 3个
总下载大小: 约49.4 MB（三个配置总和）
总数据集大小: 约147.1 MB（三个配置总和）

配置详情

数据集包含三个独立的配置，每个配置均基于不同的随机种子生成。

配置1

配置名称: ENSEONG_ko-math-500-test--T-0.8--top_p-1.0--n-64--seed-0--agg_strategy-last
训练集样本数: 500
训练集大小: 48,866,363 字节
下载大小: 16,333,483 字节

配置2

配置名称: ENSEONG_ko-math-500-test--T-0.8--top_p-1.0--n-64--seed-42--agg_strategy-last
训练集样本数: 500
训练集大小: 49,173,108 字节
下载大小: 16,546,152 字节

配置3

配置名称: ENSEONG_ko-math-500-test--T-0.8--top_p-1.0--n-64--seed-64--agg_strategy-last
训练集样本数: 500
训练集大小: 49,082,209 字节
下载大小: 16,534,973 字节

数据结构

每个配置的数据集结构相同，包含以下特征（字段）：

核心问题与答案字段

problem: 问题文本
solution: 解决方案文本
answer: 答案文本
subject: 学科类别
level: 难度等级（整数）
id: 样本唯一标识符

模型生成与评估字段

completions: 模型生成的补全文本列表
scores: 评分列表（嵌套列表，浮点数）
pred: 预测结果
completion_tokens: 补全的令牌数量列表（整数）
agg_scores: 聚合分数列表（浮点数）
preds: 预测结果列表

不同策略的预测结果字段

包含加权 (weighted)、多数投票 (maj) 和朴素 (naive) 三种策略，在采样数量为1、2、4、8、16、32、64时的预测结果，例如：

pred_weighted@1
pred_maj@1
pred_naive@1
...（以此类推至 pred_naive@64）

通过率评估字段

包含在采样数量为1、2、4、8、16、32、64时的通过率评估指标，例如：

pass@1
pass@2
pass@4
pass@8
pass@16
pass@32
pass@64

数据内容

主题: 数学问题
语言: 韩语（基于字段名推断）
用途: 用于评估语言模型在数学问题求解上的性能，包含多策略预测和通过率分析。

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，评估大型语言模型的推理能力需要精心设计的基准数据集。ko-ko-math-500-test-Qwen2.5-3B-Instruct-bon 数据集通过系统化的流程构建而成，其核心源于一个包含500道韩语数学题目的原始测试集。构建过程中，研究团队采用Qwen2.5-3B-Instruct模型，在温度参数为0.8、top-p为1.0的采样设置下，为每道题目生成了64个独立的解答序列。这一过程在三个不同的随机种子（0, 42, 64）下重复进行，形成了三个配置版本，确保了生成结果的多样性与可复现性。每个样本不仅包含原始问题、标准答案与解题步骤，还详尽记录了模型生成的所有候选解答及其对应的评分，为深入分析模型行为提供了丰富的数据层。

特点

该数据集的一个显著特征在于其多层次、结构化的评估框架。它超越了传统数据集仅提供问题与答案的范式，囊括了模型在多种解码策略下产生的大量预测序列（completions）以及对应的量化分数（scores）。数据集引入了多种集成预测结果，如加权预测（pred_weighted）、多数投票预测（pred_maj）和朴素预测（pred_naive），并计算了从1到64不同采样规模下的通过率（pass@k）。这种设计使得研究者能够从答案正确性、预测一致性、评分置信度以及采样效率等多个维度，对模型的数学推理性能进行细致入微的剖析与比较。

使用方法

该数据集主要服务于大型语言模型在数学推理任务上的评估与比较研究。使用者可以通过HuggingFace平台加载指定的配置版本，每个版本对应一个特定的随机种子，从而考察生成过程的随机性影响。研究人员可以提取‘problem’、‘solution’、‘answer’等基础字段进行常规性能测试，更可利用‘completions’、‘scores’及各类‘pred_*’字段进行深入的错误分析与集成方法研究。通过分析不同‘pass@k’指标，能够评估模型在增加采样数量时的性能提升曲线。该数据集为系统化评测模型在韩语数学问题上的生成质量、稳定性和推理可靠性提供了标准化的基准工具。

背景与挑战

背景概述

在人工智能与数学推理交叉领域，韩语数学问题求解数据集扮演着关键角色。ko-ko-math-500-test-Qwen2.5-3B-Instruct-bon数据集由ENSEONG团队构建，旨在评估大型语言模型在韩语数学问题上的推理能力。该数据集聚焦于多步骤数学问题求解，涵盖不同学科主题与难度级别，其核心研究问题在于探索模型对复杂数学逻辑的理解与生成能力。通过提供问题、解答、答案及多种预测指标，该数据集为韩语数学推理模型的性能评估提供了标准化基准，推动了多语言数学人工智能的发展。

当前挑战

该数据集致力于解决韩语数学问题自动求解的领域挑战，包括模型对多步骤推理的准确捕捉、跨学科知识的整合以及对韩语自然语言表述的精确理解。在构建过程中，团队面临数据标注一致性与质量控制的难题，需确保每个问题的解答逻辑严密且答案无误。同时，生成多样化且可靠的模型补全结果，并设计合理的聚合策略与评估指标，以准确反映模型性能，也是数据集构建中的关键挑战。

常用场景

经典使用场景

在数学推理与自然语言处理交叉领域，该数据集作为评估大型语言模型数学问题求解能力的基准工具。其经典使用场景集中于对模型生成的多步数学解答进行系统性评测，通过问题、标准答案及模型生成的多种预测结果，研究者能够深入分析模型在复杂数学逻辑推导中的表现。数据集结构支持对模型输出进行加权、多数投票等聚合策略的比较，为模型优化提供了细致入微的评估框架。

实际应用

在实际应用中，该数据集可作为智能教育系统与自动化解题工具的核心测试集。教育科技领域能够利用其评估辅导机器人在解答数学问题时的逻辑严密性与步骤正确性，进而优化交互式学习体验。同时，它也为金融、工程等需要定量推理的行业提供了验证模型可靠性的基准，确保自动化系统在处理数值计算与逻辑推导任务时具备足够的鲁棒性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在数学推理模型的评估方法论创新上。例如，基于其多预测聚合机制的研究催生了更稳健的模型集成策略，提升了数学问题求解的共识性判断。同时，该数据集也激发了针对不同学科主题与难度级别的细分评估研究，推动了数学语言理解任务向更精细化、结构化方向的演进，为后续大规模数学评测基准的构建奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集