five

Code dataset

收藏
github2025-02-07 更新2025-02-10 收录
下载链接:
https://github.com/ethicalabs-ai/FlowerTune-Qwen2.5-Coder-0.5B-Instruct
下载链接
链接失效反馈
官方服务:
资源简介:
代码数据集

Code Dataset
创建时间:
2025-01-28
原始信息汇总

FlowerTune-Qwen2.5-Coder-0.5B-Instruct 数据集概述

数据集基本信息

  • 基础模型: Qwen/Qwen2.5-Coder-0.5B-Instruct
  • 训练数据集: flwrlabs/code-alpaca-20k
  • 训练方法: 联邦指令调优
  • 工具框架: Flower Datasets 和 Flower Simulation Engine

训练方法

  • 调优技术: DoRA (通过🤗PEFT库实现)
  • 聚合策略: FedAvg
  • 量化: 4-bit
  • 优化器: paged_adamw_8bit
  • 精度: bf16

训练配置

  • 批次大小: 8
  • 最大步数: 10
  • 总轮数: 100
  • 每轮参与比例: 0.2
  • 学习率调度器: 余弦退火
    • 最大学习率: 5e-5
    • 最小学习率: 5e-6

评估结果

  • MBPP: 25.60%
  • HumanEval: 37.81%
  • MultiPL-E (JS): 41.00%
  • MultiPL-E (C++): 32.92%
  • 平均得分: 34.34%

计算资源

  • GPU: 1 × RTX A4000 16 GB
  • vCPUs: 4
  • CPU: AMD EPYC (Milan)
  • 内存: 16 GB

成本分析

  • 总成本/小时: $0.3275
  • 模拟成本: $0.18
  • 运行时间: 1924.52秒 (约32分钟)

实验设置

  • 数据集分区: 10个IID分区
  • 参与节点: 每轮随机采样20%
  • 检查点保存: 每5轮保存一次全局PEFT模型

环境依赖

  • 主要依赖: 通过pyproject.toml定义
  • 额外安装: FlashAttention-2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建采用了联邦学习的方式,通过Flower Datasets下载、划分及预处理Code dataset。具体而言,数据集被划分为10个部分,每部分分配给一个ClientApp,并在每次迭代中随机选取一定比例的节点参与训练,共进行100轮迭代。
使用方法
使用该数据集时,首先需要在Python环境中安装必要的依赖,然后通过Flower框架提供的命令行工具进行联邦学习的训练与评估。训练配置和超参数均在pyproject.toml文件中定义,用户可通过修改该文件来调整实验设置。
背景与挑战
背景概述
Code dataset是一个基于代码的数据集,用于联邦指令微调,旨在提升大型语言模型在编程任务上的表现。该数据集的构建依托于Qwen/Qwen2.5-Coder-0.5B-Instruct预训练模型,并采用Flower Datasets进行下载、划分及预处理。此项工作始于近年,由相关研究人员和机构共同推进,旨在解决编程任务中的指令遵循问题,对强化机器学习模型在编程领域的应用具有显著影响。
当前挑战
该数据集在构建和应用过程中面临的挑战包括:1) 如何在保证隐私和安全的前提下,有效进行联邦学习;2) 针对代码理解的复杂性,如何优化模型结构以提高其准确性和效率;3) 在有限的通信预算内,如何实现模型的精确微调。此外,构建过程中还需克服数据集划分、模型训练与评估、资源优化分配等多方面的技术难题。
常用场景
经典使用场景
该数据集主要用于代码领域的联邦指令微调任务,特别是在预训练语言模型Qwen/Qwen2.5-Coder-0.5B-Instruct的基础上进行微调。其经典使用场景在于通过模拟引擎在单GPU上模拟大规模语言模型的分布式训练过程,进而优化模型在代码任务中的表现,例如代码生成、代码补全等。
解决学术问题
该数据集解决了联邦学习中模型训练效率与隐私保护之间的平衡问题。通过DoRA算法和FedAvg聚合策略,有效提升了模型在代码任务中的性能,同时保证了训练过程的安全性。这对于提升代码生成和理解领域的研究具有重要意义。
实际应用
在实际应用中,该数据集可被用于改进软件开发工具,例如IDE的代码补全功能,提高软件开发的效率和代码质量。此外,它还可以支持自动化的代码审查和缺陷检测,为软件开发和维护提供支持。
数据集最近研究
最新研究方向
该研究采用预训练的Qwen/Qwen2.5-Coder-0.5B-Instruct模型,在代码数据集上执行联邦指令微调。研究运用了DoRA方法,通过Flower Datasets进行数据集的下载、划分与预处理,并在单GPU上模拟联邦微调过程。该研究以FedAvg策略聚合客户端模型,实现了在代码挑战排行榜上的基线性能。此方向的研究在模型精确度、量化、优化器配置及训练配置等方面进行了深入探讨,为联邦学习在代码数据集上的应用提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作