Code dataset

github2025-02-07 更新2025-02-10 收录

下载链接：

https://github.com/ethicalabs-ai/FlowerTune-Qwen2.5-Coder-0.5B-Instruct

下载链接

链接失效反馈

官方服务：

资源简介：

代码数据集

Code Dataset

创建时间：

2025-01-28

原始信息汇总

FlowerTune-Qwen2.5-Coder-0.5B-Instruct 数据集概述

数据集基本信息

基础模型: Qwen/Qwen2.5-Coder-0.5B-Instruct
训练数据集: flwrlabs/code-alpaca-20k
训练方法: 联邦指令调优
工具框架: Flower Datasets 和 Flower Simulation Engine

训练方法

调优技术: DoRA (通过🤗PEFT库实现)
聚合策略: FedAvg
量化: 4-bit
优化器: paged_adamw_8bit
精度: bf16

训练配置

批次大小: 8
最大步数: 10
总轮数: 100
每轮参与比例: 0.2
学习率调度器: 余弦退火
- 最大学习率: 5e-5
- 最小学习率: 5e-6

评估结果

MBPP: 25.60%
HumanEval: 37.81%
MultiPL-E (JS): 41.00%
MultiPL-E (C++): 32.92%
平均得分: 34.34%

计算资源

GPU: 1 × RTX A4000 16 GB
vCPUs: 4
CPU: AMD EPYC (Milan)
内存: 16 GB

成本分析

总成本/小时: $0.3275
模拟成本: $0.18
运行时间: 1924.52秒 (约32分钟)

实验设置

数据集分区: 10个IID分区
参与节点: 每轮随机采样20%
检查点保存: 每5轮保存一次全局PEFT模型

环境依赖

主要依赖: 通过pyproject.toml定义
额外安装: FlashAttention-2

搜集汇总

数据集介绍

构建方式

该数据集的构建采用了联邦学习的方式，通过Flower Datasets下载、划分及预处理Code dataset。具体而言，数据集被划分为10个部分，每部分分配给一个ClientApp，并在每次迭代中随机选取一定比例的节点参与训练，共进行100轮迭代。

使用方法

使用该数据集时，首先需要在Python环境中安装必要的依赖，然后通过Flower框架提供的命令行工具进行联邦学习的训练与评估。训练配置和超参数均在pyproject.toml文件中定义，用户可通过修改该文件来调整实验设置。

背景与挑战

背景概述

Code dataset是一个基于代码的数据集，用于联邦指令微调，旨在提升大型语言模型在编程任务上的表现。该数据集的构建依托于Qwen/Qwen2.5-Coder-0.5B-Instruct预训练模型，并采用Flower Datasets进行下载、划分及预处理。此项工作始于近年，由相关研究人员和机构共同推进，旨在解决编程任务中的指令遵循问题，对强化机器学习模型在编程领域的应用具有显著影响。

当前挑战

该数据集在构建和应用过程中面临的挑战包括：1) 如何在保证隐私和安全的前提下，有效进行联邦学习；2) 针对代码理解的复杂性，如何优化模型结构以提高其准确性和效率；3) 在有限的通信预算内，如何实现模型的精确微调。此外，构建过程中还需克服数据集划分、模型训练与评估、资源优化分配等多方面的技术难题。

常用场景

经典使用场景

该数据集主要用于代码领域的联邦指令微调任务，特别是在预训练语言模型Qwen/Qwen2.5-Coder-0.5B-Instruct的基础上进行微调。其经典使用场景在于通过模拟引擎在单GPU上模拟大规模语言模型的分布式训练过程，进而优化模型在代码任务中的表现，例如代码生成、代码补全等。

解决学术问题

该数据集解决了联邦学习中模型训练效率与隐私保护之间的平衡问题。通过DoRA算法和FedAvg聚合策略，有效提升了模型在代码任务中的性能，同时保证了训练过程的安全性。这对于提升代码生成和理解领域的研究具有重要意义。

实际应用

在实际应用中，该数据集可被用于改进软件开发工具，例如IDE的代码补全功能，提高软件开发的效率和代码质量。此外，它还可以支持自动化的代码审查和缺陷检测，为软件开发和维护提供支持。

数据集最近研究