magpie-easy-math-instruction-88k-qwen2.5-bakeneko-32b-instruct

Hugging Face2025-03-20 更新2025-03-21 收录

下载链接：

https://huggingface.co/datasets/Kendamarron/magpie-easy-math-instruction-88k-qwen2.5-bakeneko-32b-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用Magpie和rinna/qwen2.5-bakeneko-32b-instruct模型生成的合成指令数据集。数据集中的指令通过两种不同的系统提示生成回答，并且只有当这两个回答在LLM评估中一致时，对应的记录才会被保留。数据集包含训练集split，共有88,686个示例。数据集的特征包括指令ID、指令文本、系统提示、指令令牌数、输出文本、生成令牌数、代码输出、代码生成令牌数、执行输出、执行最后输出和评分。

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

该数据集通过使用rinna/qwen2.5-bakeneko-32b-instruct模型，结合Magpie工具生成合成指令数据。生成过程中，系统采用两种不同的系统提示（system prompt）来生成回答：一种是基于逻辑和数学能力的提示，另一种是基于编程能力的提示。生成的回答通过LLM评估，只有当两种回答一致时，该记录才会被保留。此外，生成的代码会被执行，执行结果也会被记录并用于验证。

特点

该数据集的特点在于其高度结构化的数据格式，包含了指令、输出、代码输出、执行输出等多个字段。每个字段都经过严格的验证，确保数据的准确性和一致性。数据集中的指令主要涉及数学问题，且通过编程方式进行解答，展示了逻辑与编程的结合。此外，数据集还包含了执行代码的结果，进一步增强了数据的实用性和可靠性。

使用方法

该数据集适用于训练和评估语言模型在数学和编程任务上的表现。研究人员可以通过分析指令、输出、代码输出和执行输出之间的关系，深入理解模型在处理复杂任务时的表现。数据集中的代码执行结果还可以用于验证模型的编程能力，帮助开发更高效的模型训练方法。此外，该数据集还可用于研究系统提示对模型输出的影响，为优化提示工程提供数据支持。

背景与挑战

背景概述

magpie-easy-math-instruction-88k-qwen2.5-bakeneko-32b-instruct数据集是由rinna团队基于qwen2.5-bakeneko-32b-instruct模型生成的合成指令数据集，专注于数学问题的解决与逻辑推理。该数据集通过Magpie工具生成指令，并利用两种不同的系统提示（system prompt）生成回答，最终通过大语言模型（LLM）评估确保回答的一致性。数据集的核心研究问题在于如何通过合成数据提升模型在数学推理和编程任务中的表现，尤其是在逻辑严谨性和代码执行准确性方面的能力。该数据集为数学与编程领域的模型训练提供了高质量的数据支持，推动了相关领域的研究进展。

当前挑战

该数据集在构建过程中面临多重挑战。首先，生成高质量的数学指令需要确保问题的多样性和复杂性，以覆盖广泛的数学概念和逻辑推理场景。其次，通过两种不同的系统提示生成回答并确保其一致性，要求模型具备高度的逻辑推理能力和代码执行准确性。此外，代码执行的时效性也是一个关键挑战，数据集要求代码在3秒内完成执行，否则将被视为超时。这些挑战不仅考验了模型的性能，也对数据集的构建流程提出了严格要求。最终，数据集通过严格的筛选机制，确保了数据的可靠性和一致性，为后续研究提供了坚实的基础。

常用场景

经典使用场景

在自然语言处理领域，magpie-easy-math-instruction-88k-qwen2.5-bakeneko-32b-instruct数据集被广泛应用于数学问题求解和编程任务生成的研究中。该数据集通过生成数学指令和编程代码，结合逻辑推理和数学计算，为研究者提供了一个丰富的实验平台。特别是在大语言模型（LLM）的评估和优化中，该数据集能够帮助研究者验证模型在数学推理和编程任务中的表现。

解决学术问题

该数据集解决了大语言模型在数学推理和编程任务中的一致性问题。通过生成两种不同的系统提示（system prompt）并比较其输出结果，研究者能够筛选出逻辑一致且数学正确的回答。这一过程不仅提升了模型的推理能力，还为模型在复杂任务中的表现提供了可靠的评估标准。

衍生相关工作

基于该数据集，研究者们开发了一系列与数学推理和编程任务相关的经典工作。例如，利用该数据集训练的模型在数学竞赛和编程挑战中表现出色，推动了智能教育工具的发展。此外，该数据集还被用于优化大语言模型的推理能力，衍生出多个在数学和编程领域具有影响力的研究项目。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集