SRA-MCTS-Llama-3.1-8B

github2024-11-27 更新2024-12-06 收录

下载链接：

https://github.com/DIRECT-BIT/SRA-MCTS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Meta-Llama-3.1-8B生成，包含了推理路径和最终代码。通过SRA-MCTS方法生成的数据在多样性和有效性上优于传统的Chain-of-Thought方法，适用于增强小模型的自主推理能力。

This dataset is generated by Meta-Llama-3.1-8B and contains both reasoning paths and final code. The data generated via the SRA-MCTS method outperforms traditional Chain-of-Thought (CoT) approaches in terms of diversity and effectiveness, and is suitable for enhancing the autonomous reasoning capabilities of small-scale language models.

创建时间：

2024-11-21

原始信息汇总

SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation

概述

通过自生成数据提升性能：小型模型可以通过自生成数据实现与大型模型蒸馏数据相当的性能提升，甚至在某些情况下超越。与使用70B模型生成的合成数据相比，SRA-MCTS在Human-Eval和Human-Eval+基准测试中，2B和8B规模模型的平均提升达到2分。
生成数据的多样性和有效性：SRA-MCTS生成的数据比Chain-of-Thought (CoT)方法生成的数据更具多样性。实验结果表明，SRA-MCTS在提升模型性能方面优于CoT，在8B和14B规模上分别提升了5分和3分。
开源数据：已开源Meta-Llama-3.1-8B生成的完整过程数据，涵盖推理路径和最终代码。

实验结果

SRA-MCTS增强小型模型的自主推理能力：与70B模型生成的数据相比，SRA-MCTS在2B和8B规模上将Human-Eval和Human-Eval+分数平均提高了2分。70B模型的数据仅在14B规模上超越SRA-MCTS。
SRA-MCTS在整体性能上超越CoT：SRA-MCTS在几乎所有基准测试中均优于CoT方法，在Human-Eval+上几乎比Instruct高出2分。在计算各种模型和基准的增量平均值时，SRA-MCTS在所有模型规模上均表现出性能提升，8B和14B规模上分别提升了5分和3分。
SRA-MCTS在pass@10上的多样性表现出色：SRA-MCTS在多遍生成任务中优于CoT，特别是在小型模型中表现出更强的多样性。
SRA-MCTS在模型规模增加时兼具多样性和可靠性：在小型模型上，由于中间评估能力不足，SRA-MCTS主要增强了多样性，主要体现在pass@10（多遍生成）上。随着模型规模的增加，模型遵循指令和评估能力提升，SRA-MCTS不仅在pass@10上表现良好，还在pass@1上超越CoT，展示了多样性和可靠性。

语言模型和数据集

实验模型：使用gemma-2-2b、Meta-Llama-3.1-8B和Qwen2.5-14B模型。
评估数据集：使用代码相关的评估数据集：human-eval、human-eval+、MBPP和MBPP+。

比较

SRA-MCTS与其他模型的比较：

模型	规模	Human-Eval	Human-Eval+	MBPP	MBPP+
gemma-2-2b-Instruct	2B	39.76	33.05	34.42	43.39
gemma-2-2b-CoT	2B	41.89	35.37	34.90	43.70
gemma-2-2b-SRA-MCTS	2B	40.73	34.88	33.92	45.37
CodeGen-2B	2B	24.4	22.6	46.3	36
CodeT5+-2B	2B	25	22	48.4	38.1
codegemma-2b	2B	26.8	20.7	55.6	46.6
---	---	---	---	---	---
Meta-Llama-3.1-8B-Instruct	8B	62.74	58.90	51.94	45.37
Meta-Llama-3.1-8B-CoT	8B	62.32	58.35	52.94	60.50
Meta-Llama-3.1-8B-SRA-MCTS	8B	62.19	57.87	54.52	59.97
Zephyr β-7B	7B	30	23.2	42.1	34.7
Mistral-7B	7B	28.7	23.8	51.9	42.1
gemma-7b	7B	35.4	28.7	52.6	43.4
CodeT5+-6B	6B	29.3	24.4	52.9	41.5
WizardCoder-Python-7B-V1.0	7B	50.6	45.1	58.5	49.5
CodeLlama-7B	7B	37.8	35.4	59.5	46.8
codegemma-7b	7B	44.5	41.5	65.1	52.4
DeepSeek-Coder-6.7B-Instruct	6.7B	74.4	71.3	74.9	65.6
CodeQwen1.5-7B	7B	51.8	45.7	73.5	60.8
Magicoder-S-DS-6.7B	6.7B	76.8	71.3	79.4	69
---	---	---	---	---	---
Qwen2.5-14B-Instruct	14B	80.37	76.52	56.42	61.48
Qwen2.5-14B-CoT	14B	78.66	73.84	58.12	63.97
Qwen2.5-14B-SRA-MCTS	14B	85.37	75.00	61.02	61.16
CodeGen-16B	16B	32.9	28	54.2	45.5
StarCoder-15B	15B	34.1	29.3	55.1	46.1
CodeT5+-16B	16B	31.7	26.8	56.6	47.1
CodeLlama-13B	13B	42.7	38.4	63.5	52.6
WizardCoder-15B-V1.0	15B	56.7	50.6	64.3	54.2

代码

快速开始步骤：
1. 创建虚拟环境： bash conda create --name SRA-MCTS python=3.10 conda activate SRA-MCTS pip install requirements.txt
2. 在models/model.py中指定模型路径。
3. 在入口文件中设置数据集路径并执行。
4. 执行后，推理结果将保存在data/reasoning中，运行data/clean.ipynb过滤数据。
5. 使用data/translator.ipynb生成代码，结果保存在nl2sl目录中。
6. 运行merged.ipynb合并提示并打乱数据。

数据集

开源数据集：包含Meta-Llama-3.1-8B生成的推理路径和最终代码的完整过程数据。

搜集汇总

数据集介绍

构建方式

SRA-MCTS-Llama-3.1-8B数据集的构建基于Meta-Llama-3.1-8B模型，通过自驱动推理增强与蒙特卡洛树搜索（MCTS）相结合的方法生成。该数据集涵盖了推理路径和最终代码，旨在提升小规模模型在代码生成任务中的表现。具体构建过程包括使用MCTS生成多样化的推理步骤，随后将这些步骤与代码片段结合，形成完整的推理与代码生成数据集。

使用方法

使用SRA-MCTS-Llama-3.1-8B数据集进行模型训练或评估时，首先需创建一个虚拟环境并安装相关依赖。接着，在指定路径下加载模型和数据集，通过执行相应的Python脚本进行推理和代码生成。生成的推理结果将以自然语言形式保存，并可通过数据清洗和转换步骤进一步处理，最终生成用于微调的代码数据集。整个流程包括数据加载、推理执行、结果保存和数据处理，确保了数据集的高效利用和后续任务的顺利进行。

背景与挑战

背景概述

SRA-MCTS-Llama-3.1-8B数据集是由Meta-Llama-3.1-8B模型生成的代码生成数据集，专注于通过蒙特卡洛树搜索（MCTS）增强自驱动推理能力。该数据集的核心研究问题是如何通过自生成数据提升小规模模型的性能，特别是在代码生成任务中。主要研究人员和机构通过开源的方式，公开了包括推理路径和最终代码在内的完整过程数据，旨在推动代码生成领域的发展。该数据集的创建不仅展示了小模型在性能上的显著提升，还通过多样化的生成数据展示了其在增强模型性能方面的潜力。

当前挑战

SRA-MCTS-Llama-3.1-8B数据集在构建过程中面临的主要挑战包括：1) 如何在小规模模型中实现与大规模模型相媲美的性能提升；2) 生成数据的多样性和有效性如何保证；3) 在缺乏中间评估能力的情况下，如何确保生成数据的可靠性和多样性。此外，数据集的构建还需要解决模型训练中的自然语言推理步骤缺失问题，以及在不同模型规模下性能差异的平衡问题。这些挑战不仅涉及技术层面的优化，还要求在理论和实践之间找到平衡点，以确保数据集的广泛适用性和高效性。

常用场景

经典使用场景

SRA-MCTS-Llama-3.1-8B数据集的经典使用场景主要集中在代码生成和自然语言推理的增强上。通过结合蒙特卡洛树搜索（MCTS）和自驱动推理增强技术，该数据集能够显著提升小型语言模型在代码生成任务中的表现。具体而言，研究者可以利用该数据集训练模型，使其在Human-Eval和Human-Eval+等基准测试中取得更高的分数，尤其是在2B和8B规模模型上，性能提升尤为显著。

解决学术问题

SRA-MCTS-Llama-3.1-8B数据集解决了在代码生成领域中，小型模型性能提升的常见学术问题。传统上，小型模型依赖于大型模型生成的合成数据进行训练，但这种方法往往效果有限。该数据集通过自生成数据和MCTS技术，使得小型模型在代码生成任务中能够达到甚至超越大型模型的性能，为学术界提供了一种新的研究方向和方法。

实际应用

在实际应用中，SRA-MCTS-Llama-3.1-8B数据集可广泛应用于自动化代码生成、软件开发辅助工具以及智能编程助手等领域。通过使用该数据集训练的模型，开发者可以更高效地生成代码，减少手动编写代码的时间和错误率。此外，该数据集还可用于教育培训，帮助学生和初学者快速掌握编程技能。

数据集最近研究