five

Code_Alpaca_20K|代码生成数据集|指令微调数据集

收藏
github2023-03-01 更新2025-02-07 收录
代码生成
指令微调
下载链接:
https://github.com/sahil280114/codealpaca
下载链接
链接失效反馈
资源简介:
Code Alpaca 20K数据集是为微调Code Alpaca模型而设计的。该数据集的构建方法与Alpaca数据集相同,最终生成了20,000条指令。其优势在于提供了一个与代码相关的指令数据集。

The Code Alpaca 20K dataset is designed for fine-tuning the Code Alpaca model. The construction method of this dataset is identical to that of the Alpaca dataset, ultimately resulting in 20,000 instructions. Its advantage lies in providing a dataset of instructions related to code.
提供机构:
Sahil Chaudhary
创建时间:
2023-03-01
原始信息汇总

Code Alpaca 数据集概述

数据集基本信息

  • 名称: Code Alpaca
  • 类型: 代码生成指令数据集
  • 数据量: 20K条指令数据
  • 格式: JSON
  • 文件路径: data/code_alpaca_20k.json
  • 许可证: Apache 2.0

数据集内容

  • 字段说明:

    • instruction: 描述模型应执行的任务(20K条唯一指令)
    • input: 任务的可选上下文或输入(约40%示例包含此字段)
    • output: 由text-davinci-003生成的指令答案
  • 提示模板:

    • 包含输入字段的示例:

      Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

      Instruction:

      {instruction}

      Input:

      {input}

      Response:

    • 不包含输入字段的示例:

      Below is an instruction that describes a task. Write a response that appropriately completes the request.

      Instruction:

      {instruction}

      Response:

数据生成过程

  • 方法: 基于Self-Instruct论文技术,修改为专注于代码生成/编辑/优化任务
  • 成本: 低于200美元
  • 种子任务: 仅与代码生成相关
  • 包含子集: 2K样本数据集(用于降低风险和验证模型质量)

模型微调

  • 基础模型: LLaMA 7B和13B

  • 微调方法: Hugging Face训练代码+deepspeed

  • 超参数:

    参数
    学习率 2e-5
    训练轮数 3
    最大长度 512
    权重衰减 0
  • 硬件要求: 8xA100 80GB(可调整配置以适应更低规格)

使用限制

  • 模型权重未包含在发布中(因OpenAI TOS和LLaMA许可证限制)
  • 模型未针对安全性和无害性进行微调,需谨慎使用

相关资源

  • Demo: https://code-alpaca-demo.vercel.app/
  • 基础模型论文: LLaMA论文[1]和Self-Instruct论文[2]
  • 相关项目: Stanford Alpaca (https://github.com/tatsu-lab/stanford_alpaca)

引用

bibtex @misc{codealpaca, author = {Sahil Chaudhary}, title = {Code Alpaca: An Instruction-following LLaMA model for code generation}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {https://github.com/sahil280114/codealpaca}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Code_Alpaca_20K数据集的构建基于Self-Instruct技术,通过对20K条指令数据进行微调,生成适用于代码生成任务的模型。数据生成过程中,采用了修改后的提示模板,专注于代码生成、编辑和优化任务,而非通用任务。数据生成流程包括设置环境变量、安装依赖项并运行生成脚本,最终以较低成本生成了20K条指令数据。
特点
Code_Alpaca_20K数据集包含20K条独特的指令-输出对,每条数据由指令、输入(可选)和输出组成。其中约40%的示例包含输入字段,提供了任务所需的上下文信息。数据集的设计旨在支持代码生成任务,适用于微调LLaMA模型,使其能够根据指令生成高质量的代码。数据集的生成过程经过优化,确保了数据的多样性和任务相关性。
使用方法
使用Code_Alpaca_20K数据集时,首先需安装依赖项并配置环境变量。通过Hugging Face的transformers库和deepspeed工具,用户可以在多GPU环境下对LLaMA模型进行微调。微调过程中,需指定数据集路径、学习率、训练轮数等超参数。训练完成后,模型可用于代码生成任务,用户可通过提供的Web演示界面进行交互式测试。
背景与挑战
背景概述
Code_Alpaca_20K数据集由Sahil Chaudhary等人于2023年发布,旨在构建一个基于LLaMA模型的指令跟随代码生成模型。该数据集基于Stanford Alpaca项目,专注于代码生成任务,通过修改Self-Instruct论文中的技术生成20K条指令跟随数据。数据集的核心研究问题是如何通过指令微调提升模型在代码生成任务中的表现。该数据集的发布为代码生成领域的研究提供了新的基准,推动了自然语言处理与编程语言处理的交叉研究。
当前挑战
Code_Alpaca_20K数据集在构建和应用过程中面临多重挑战。首先,代码生成任务本身具有高度复杂性,模型需要理解自然语言指令并生成符合语法和语义的代码,这对模型的泛化能力提出了极高要求。其次,数据生成过程中需确保指令的多样性和任务的实用性,同时控制生成成本。此外,由于LLaMA模型的许可限制,模型权重未公开,这限制了数据集的广泛应用和复现。最后,模型在微调过程中需平衡计算资源与训练效率,尤其是在大规模数据集上的训练对硬件资源提出了较高要求。
常用场景
经典使用场景
Code_Alpaca_20K数据集在代码生成领域具有广泛的应用,尤其是在指令跟随模型的训练中。通过20K条指令数据,该数据集能够帮助模型理解和执行复杂的代码生成任务,如SQL查询优化、代码片段生成和代码修复等。这些任务通常需要模型具备高度的上下文理解能力和代码逻辑推理能力,而Code_Alpaca_20K通过其丰富的指令数据为模型提供了充分的训练素材。
解决学术问题
Code_Alpaca_20K数据集解决了代码生成领域中模型难以准确理解复杂指令的问题。通过提供大量多样化的指令数据,该数据集显著提升了模型在代码生成任务中的表现,尤其是在处理多语言代码、优化现有代码和生成新代码片段等方面。此外,该数据集还为研究人员提供了一个标准化的基准,用于评估和比较不同模型在代码生成任务中的性能,推动了该领域的学术研究进展。
衍生相关工作
Code_Alpaca_20K数据集衍生了一系列相关研究工作,特别是在基于LLaMA模型的代码生成领域。许多研究团队利用该数据集进一步优化了模型的指令跟随能力,开发出更高效的代码生成工具。例如,一些研究专注于提升模型在多语言代码生成中的表现,而另一些研究则探索了如何通过更复杂的指令数据提升模型的代码优化能力。这些工作不仅推动了代码生成技术的发展,也为未来的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Paper III (Walker et al. 2024)

Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.

DataCite Commons 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

World Values Survey (WVS)

世界价值观调查(World Values Survey, WVS)是一个跨国的、长期的学术调查项目,旨在研究全球不同国家和地区的社会、政治和文化价值观的变化。该调查涵盖了从1981年至今的多个波次,每次调查都包含一系列关于个人价值观、社会规范、政治态度、宗教信仰、家庭观念等方面的问题。数据集包括了来自全球100多个国家和地区的调查结果,提供了丰富的社会科学研究数据。

www.worldvaluessurvey.org 收录