alpaca-cleaned
收藏Alpaca-Cleaned 数据集概述
数据集基本信息
- 数据集名称: Alpaca-Cleaned
- 许可证: Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
- 语言: 英语 (en)
- 标签: instruction-finetuning
- 任务类别: 文本生成 (text-generation)
- 源仓库: https://github.com/gururise/AlpacaDataCleaned
- 派生自: https://huggingface.co/datasets/yahma/alpaca-cleaned
数据集描述
Alpaca-Cleaned 是斯坦福大学发布的原始 Alpaca 数据集的清理版本。此数据集修复了原始版本中存在的多个问题。
已修复的问题
- 幻觉问题: 原始数据集中许多指令引用了互联网数据,导致模型产生幻觉答案。
- 合并指令: 原始数据集中存在许多指令被错误合并的情况。
- 空输出: 原始数据集中部分条目的输出为空。
- 空代码示例: 原始数据集中部分描述缺少代码示例。
- 生成图像的指令: 原始数据集中包含无法执行的生成图像的指令。
- N/A 输出: 原始数据集中部分代码片段的输出为 N/A。
- 不一致的输入字段: 原始数据集中输入字段为空时存在多种不一致的表示方式。
- 错误答案: 原始数据集中部分指令/问题包含错误答案,估计约 80% 的数学问题答案错误。
- 无意义/不清晰的指令: 原始数据集中存在许多不清晰的指令,已尝试澄清或重写。
- 多余的转义和控制字符: 原始数据集中多个条目包含多余的转义和控制字符。
原始 Alpaca 数据集摘要
- Alpaca 是一个包含 52,000 条指令和演示的数据集,由 OpenAI 的
text-davinci-003引擎生成。 - 该指令数据可用于对语言模型进行指令微调,使其更好地遵循指令。
- 生成过程基于 Self-Instruct 框架,并进行了多项修改以降低成本(低于 500 美元)并提高数据多样性。
数据集结构
数据实例
一个训练集示例如下: json { "instruction": "Create a classification task by clustering the given list of items.", "input": "Apples, oranges, bananas, strawberries, pineapples", "output": "Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", "text": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
Instruction:
Create a classification task by clustering the given list of items.
Input:
Apples, oranges, bananas, strawberries, pineapples
Response:
Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", }
数据字段
instruction: 描述模型应执行的任务。52K 条指令每条都是唯一的。input: 任务的可选上下文或输入。约 40% 的示例包含输入。output: 由text-davinci-003生成的指令答案。text: 使用作者用于微调模型的提示模板格式化后的instruction、input和output。
数据划分
| 数据集 | 训练集样本数 |
|---|---|
| alpaca | 52002 |
使用注意事项
- 该数据由语言模型 (
text-davinci-003) 生成,不可避免地包含一些错误或偏见。 - 鼓励用户谨慎使用此数据,并提出过滤或改进缺陷的新方法。
许可信息
数据集采用知识共享署名-非商业性使用 4.0 国际许可协议 (CC BY-NC 4.0) 提供。
引用信息
@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }




