SVAMP,GSM8K,AQuA--RAT,MATH,CommonsenseQA,OpenbookQA,StrategyQA

github2025-02-25 更新2025-02-26 收录

下载链接：

https://github.com/EIT-NLP/Distilling-CoT-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

README中未提供具体的数据集中文描述。

No specific Chinese description of the dataset is provided in the README.

创建时间：

2025-02-25

原始信息汇总

数据集概述

数据集简介

研究主题：蒸馏思维链推理（Chain-of-Thought Reasoning）的关键因素
研究目标：系统研究影响思维链蒸馏的因素，包括粒度、格式和教师模型的选择
主要发现：
- 小语言模型（SLMs）与推理粒度呈现非单调关系
- 思维链格式对SLMs影响较小
- 更强的教师模型并不总是产生更好的学生模型

数据集详情

训练数据集

数据集名称	训练样本数	测试样本数	领域	人工标注
SVAMP	700	300	算术问题	是
GSM8K	7.4k	1.3k	小学数学	是
AQuA-RAT	6.1k	254	代数推理，多步骤	是
Math	1.3k	500	预代数、代数、计数与概率、数论	是
CommonsenseQA	9.7k	1.2k	常识知识	是
OpenBookQA	4.9k	500	领域特定知识	否
StrategyQA	2k	290	多步推理	是

模型信息

教师模型：
- GPT-4o
- Gemini-1.5-Flash
- LLaMA 3 70B
学生模型：
- LLaMA 3.2 1B
- LLaMA 3.2 3B
- Gemma 2B
- BLOOM 560M
- BLOOM 1.1B
- BLOOM 1.7B
- BLOOM 3B

实验设置

实验范围：4个数学推理数据集和3个常识推理数据集
实验方法：使用4个教师模型向7个学生模型蒸馏推理能力

使用说明

安装要求：
- Python 3.10
- LLaMA-Factory
训练步骤：
1. 克隆LLaMA-Factory仓库
2. 复制数据到LLaMA-Factory的data文件夹
3. 生成训练配置
4. 运行训练命令
评估方法：
- 数学推理评估
- 常识推理评估

引用信息

bibtex @misc{chen2025unveilingkeyfactorsdistilling, title={Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning}, author={Xinghao Chen and Zhijing Sun and Wenjin Guo and Miaoran Zhang and Yanjun Chen and Yirong Sun and Hui Su and Yijie Pan and Dietrich Klakow and Wenjie Li and Xiaoyu Shen}, year={2025}, eprint={2502.18001}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.18001}, }

联系方式

邮箱：xing-hao.chen@connect.polyu.hk

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要围绕数学和常识推理任务，涵盖了SVAMP、GSM8K、AQuA--RAT、MATH、CommonsenseQA、OpenbookQA以及StrategyQA等七种不同类型的数学和常识推理数据集。通过这些数据集，研究者们可以系统地考察影响链式思维（CoT）蒸馏的因素，包括粒度选择、格式以及教师模型的选择。

使用方法

使用该数据集时，研究者可以根据具体的模型和研究需求，选择适当的数学或常识推理数据集进行实验。数据集的利用不仅可以帮助优化链式思维蒸馏策略，还能够通过实验揭示不同教师模型和学生模型之间的复杂关系，为模型训练和优化提供实证依据。

背景与挑战

背景概述

SVAMP、GSM8K、AQuA--RAT、MATH、CommonsenseQA、OpenbookQA及StrategyQA等数据集，均是为了推动大型语言模型在推理任务中的 Chain-of-Thought (CoT) 提示技术的研究而构建。这些数据集涵盖了数学推理和常识推理等多个领域，其创建旨在为研究提供丰富的实验材料，帮助理解不同粒度、格式以及教师模型选择对CoT提示技术的影响。这些数据集的构建时间为近年来，主要研究人员和机构遍布全球，其研究成果对促进小型语言模型在推理任务中的性能优化具有显著影响力。

当前挑战

这些数据集在构建和应用过程中面临的挑战主要包括：如何在保持模型推理能力的同时，降低计算需求；如何在不同的模型能力层次上，选择适当的CoT粒度和格式；以及如何处理教师模型的多样性和复杂性，以实现更优的学生模型性能。此外，这些挑战也体现在数据集的多样性和覆盖度上，需要不断更新和完善以适应不断发展的模型需求。

常用场景

经典使用场景

在探索大型语言模型在推理任务中的Chain-of-Thought（CoT）提示机制时，SVAMP、GSM8K、AQuA--RAT等数据集的应用显得尤为关键。这些数据集提供了数学和常识推理任务的标准测试平台，研究者得以在这些数据集上评估和优化模型对复杂问题的解决能力。

解决学术问题

该数据集解决了如何在小型语言模型中实现CoT能力蒸馏的问题，揭示了模型大小、推理粒度、教师模型选择等关键因素对CoT蒸馏效果的影响，为缩小大型模型与小模型性能差距提供了重要参考。

实际应用

实际应用中，这些数据集有助于提升智能助手在数学计算、逻辑推理和常识判断方面的表现，进而提高其在教育、咨询和客户服务等领域中的实用价值。

数据集最近研究