Code_Alpaca_20K|代码生成数据集|指令微调数据集
收藏Code Alpaca 数据集概述
数据集基本信息
- 名称: Code Alpaca
- 类型: 代码生成指令数据集
- 数据量: 20K条指令数据
- 格式: JSON
- 文件路径:
data/code_alpaca_20k.json - 许可证: Apache 2.0
数据集内容
-
字段说明:
instruction: 描述模型应执行的任务(20K条唯一指令)input: 任务的可选上下文或输入(约40%示例包含此字段)output: 由text-davinci-003生成的指令答案
-
提示模板:
-
包含输入字段的示例:
Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
Instruction:
{instruction}
Input:
{input}
Response:
-
不包含输入字段的示例:
Below is an instruction that describes a task. Write a response that appropriately completes the request.
Instruction:
{instruction}
Response:
-
数据生成过程
- 方法: 基于Self-Instruct论文技术,修改为专注于代码生成/编辑/优化任务
- 成本: 低于200美元
- 种子任务: 仅与代码生成相关
- 包含子集: 2K样本数据集(用于降低风险和验证模型质量)
模型微调
-
基础模型: LLaMA 7B和13B
-
微调方法: Hugging Face训练代码+deepspeed
-
超参数:
参数 值 学习率 2e-5 训练轮数 3 最大长度 512 权重衰减 0 -
硬件要求: 8xA100 80GB(可调整配置以适应更低规格)
使用限制
- 模型权重未包含在发布中(因OpenAI TOS和LLaMA许可证限制)
- 模型未针对安全性和无害性进行微调,需谨慎使用
相关资源
- Demo: https://code-alpaca-demo.vercel.app/
- 基础模型论文: LLaMA论文[1]和Self-Instruct论文[2]
- 相关项目: Stanford Alpaca (https://github.com/tatsu-lab/stanford_alpaca)
引用
bibtex @misc{codealpaca, author = {Sahil Chaudhary}, title = {Code Alpaca: An Instruction-following LLaMA model for code generation}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {https://github.com/sahil280114/codealpaca}, }

Paper III (Walker et al. 2024)
Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.
DataCite Commons 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
World Values Survey (WVS)
世界价值观调查(World Values Survey, WVS)是一个跨国的、长期的学术调查项目,旨在研究全球不同国家和地区的社会、政治和文化价值观的变化。该调查涵盖了从1981年至今的多个波次,每次调查都包含一系列关于个人价值观、社会规范、政治态度、宗教信仰、家庭观念等方面的问题。数据集包括了来自全球100多个国家和地区的调查结果,提供了丰富的社会科学研究数据。
www.worldvaluessurvey.org 收录
