Code_Alpaca_20K|代码生成数据集|指令微调数据集
收藏Code Alpaca 数据集概述
数据集基本信息
- 名称: Code Alpaca
- 类型: 代码生成指令数据集
- 数据量: 20K条指令数据
- 格式: JSON
- 文件路径:
data/code_alpaca_20k.json
- 许可证: Apache 2.0
数据集内容
-
字段说明:
instruction
: 描述模型应执行的任务(20K条唯一指令)input
: 任务的可选上下文或输入(约40%示例包含此字段)output
: 由text-davinci-003
生成的指令答案
-
提示模板:
-
包含输入字段的示例:
Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
Instruction:
{instruction}
Input:
{input}
Response:
-
不包含输入字段的示例:
Below is an instruction that describes a task. Write a response that appropriately completes the request.
Instruction:
{instruction}
Response:
-
数据生成过程
- 方法: 基于Self-Instruct论文技术,修改为专注于代码生成/编辑/优化任务
- 成本: 低于200美元
- 种子任务: 仅与代码生成相关
- 包含子集: 2K样本数据集(用于降低风险和验证模型质量)
模型微调
-
基础模型: LLaMA 7B和13B
-
微调方法: Hugging Face训练代码+deepspeed
-
超参数:
参数 值 学习率 2e-5 训练轮数 3 最大长度 512 权重衰减 0 -
硬件要求: 8xA100 80GB(可调整配置以适应更低规格)
使用限制
- 模型权重未包含在发布中(因OpenAI TOS和LLaMA许可证限制)
- 模型未针对安全性和无害性进行微调,需谨慎使用
相关资源
- Demo: https://code-alpaca-demo.vercel.app/
- 基础模型论文: LLaMA论文[1]和Self-Instruct论文[2]
- 相关项目: Stanford Alpaca (https://github.com/tatsu-lab/stanford_alpaca)
引用
bibtex @misc{codealpaca, author = {Sahil Chaudhary}, title = {Code Alpaca: An Instruction-following LLaMA model for code generation}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {https://github.com/sahil280114/codealpaca}, }

UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录