bench_gsm8k-sd

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/beyoru/bench_gsm8k-sd

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含问题及其多个答案（来自Qwen3B模型和ReThinkLLM模型）以及真实答案的评价数据集。每个答案都会根据准确性、清晰度、完整性、数学合理性、整体评估和推理分数进行两次评估。数据集包含一个训练集，数据大小为236911字节，共有100个示例。

创建时间：

2025-05-05

原始信息汇总

数据集概述

基本信息

数据集名称: bench_gsm8k-sd
下载大小: 127054字节
数据集大小: 236911字节
训练集样本数量: 100个

数据特征

question: 字符串类型，表示问题内容
answer_from_Qwen3B: 字符串类型，Qwen3B模型生成的答案
answer_from_ReThinkLLM: 字符串类型，ReThinkLLM模型生成的答案
ground_truth_answer: 字符串类型，真实答案
check_Qwen3B: 整型，Qwen3B模型答案的检查结果
check_RethinkLLM: 整型，ReThinkLLM模型答案的检查结果
eval_1: 结构体，包含以下评分项：
- accuracy_score: 整型，准确度评分
- clarity_score: 整型，清晰度评分
- completeness_score: 整型，完整度评分
- math_soundness_score: 整型，数学合理性评分
- overall_assessment: 整型，总体评估
- reasoning_score: 整型，推理评分
eval_2: 结构体，包含与eval_1相同的评分项

评估方法

使用GPT4.1进行评估
计算eval_1和eval_2的平均评分，包括：
- accuracy_score
- reasoning_score
- clarity_score
- completeness_score
- math_soundness_score
- overall_assessment

搜集汇总

数据集介绍

构建方式

在数学问题求解领域，bench_gsm8k-sd数据集通过系统化方法构建而成。该数据集包含100个训练样本，每个样本由原始数学问题、Qwen3B和ReThinkLLM两种模型生成的答案、标准答案及验证标签组成。评估环节采用双重评分机制，由GPT-4.1对模型输出的准确性、清晰度、完整性等六个维度进行量化评分，形成结构化评估体系。

特点

该数据集最显著的特征在于其多维度的评估框架设计。除基础的问题-答案配对外，特别设置了双重独立评分模块eval_1和eval_2，每个模块包含准确性、推理能力、数学严谨性等六个精细化的评分维度。这种设计使得研究者能够从不同角度量化分析模型输出的质量，为数学推理能力的评估提供了立体化的观测视角。

使用方法

使用该数据集时，研究者可通过加载标准化的数据字段进行模型性能分析。示例代码展示了如何计算各项评估指标的平均值，包括遍历样本集、累加各评分维度的分值并进行标准化处理。这种结构化数据处理方式特别适合对比不同模型在数学推理任务中的表现差异，支持细粒度的性能评估和基准测试。

背景与挑战

背景概述

bench_gsm8k-sd数据集作为数学推理领域的重要评估基准，诞生于大语言模型快速发展的时代背景下，由专业研究团队构建以解决复杂数学问题的自动化解答难题。该数据集基于经典的GSM8K小学数学应用题数据集进行扩展，通过整合Qwen3B和ReThinkLLM等前沿语言模型的输出结果，并引入多维度的评估指标，为研究者提供了系统性的模型性能分析框架。其创新性地设计了准确性、清晰度、完整性、数学严谨性和推理能力等六维评估体系，显著提升了数学推理任务评估的精细度和可解释性。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，如何精准评估大语言模型解决多步骤数学推理任务的能力仍存在困难，特别是当模型生成结果与标准答案形式不同但数学等价时，传统字符串匹配方法难以准确评判。在构建过程中，确保评估指标的科学性和一致性是核心挑战，需要平衡不同评分维度之间的权重关系，同时处理主观评分带来的偏差问题。此外，跨模型输出的异构性也为数据标准化和对比分析带来了技术难题。

常用场景

经典使用场景

在自然语言处理领域，bench_gsm8k-sd数据集为研究者提供了一个评估大型语言模型数学推理能力的标准化平台。该数据集通过包含100个精心设计的数学问题及其对应的真实答案，以及来自Qwen3B和ReThinkLLM两个模型的预测答案，使得研究者能够系统地比较不同模型在解决复杂数学问题上的表现。多维度评分体系涵盖了准确性、清晰度、完整性、数学严谨性和推理能力等方面，为模型性能评估提供了全面视角。

解决学术问题

该数据集有效解决了自然语言处理领域中关于大型语言模型数学推理能力评估标准缺失的问题。通过提供标准化的数学问题和详尽的评分标准，研究者能够客观地量化模型在数学推理任务上的表现。这种评估机制不仅有助于识别模型在逻辑推理和数学计算方面的短板，也为改进模型架构和训练方法提供了明确方向，推动了具有复杂推理能力的人工智能系统的发展。

衍生相关工作

基于bench_gsm8k-sd数据集，研究者们开展了一系列关于提升语言模型数学推理能力的工作。其中包括开发专门的数学推理微调技术，设计更有效的评分预测模型，以及探索多模型协同解答机制。这些工作显著推进了语言模型在STEM领域的应用，并催生了多个专注于数学问题求解的专用模型架构。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集