aaaalon/mydata
收藏数据集卡片 for Alpaca-Cleaned
数据集描述
Alpaca-Cleaned 是斯坦福大学发布的原始 Alpaca 数据集的清洁版本。原始数据集存在以下问题,已在清洁版本中修复:
- 幻觉问题:原始数据集中的许多指令引用互联网上的数据,导致 GPT3 产生幻觉答案。
- 合并指令:原始数据集中有许多指令被合并在一起。
- 空输出:原始数据集中的一些条目输出为空。
- 缺少代码示例:原始数据集中的一些描述缺少代码示例,难以理解代码的预期行为。
- 生成图像指令:原始数据集中包含生成图像的指令,显然不可能实现。
- N/A 输出:原始数据集中的一些代码片段输出为 N/A。
- 输入字段不一致:原始数据集在输入字段应为空时使用不一致。
- 错误答案:原始数据集中的一些指令/问题答案不正确。约 80% 的数学问题答案不正确。
- 无意义/不清晰的指令:原始数据集中有许多不清晰或无意义的指令,已尝试澄清或重写。
- 多余转义和控制字符:原始数据集中包含多余的转义和控制字符。
原始 Alpaca 数据集概述
Alpaca 是一个包含 52,000 条指令和演示的数据集,由 OpenAI 的 text-davinci-003 引擎生成。该指令数据可用于进行语言模型的指令微调,使语言模型更好地遵循指令。
作者基于 Self-Instruct 框架 的数据生成流程进行了以下修改:
- 使用
text-davinci-003引擎生成指令数据,而非davinci。 - 编写了一个 新提示,明确给出了指令生成的要求。
- 采用更积极的批量解码,即一次生成 20 条指令,显著降低了数据生成成本。
- 简化了数据生成流程,摒弃了分类和非分类指令的区别。
- 每条指令仅生成一个实例,而非 Self-Instruct 中的 2 到 3 个实例。
这产生了一个包含 52K 示例的指令遵循数据集,成本大幅降低(不到 500 美元)。初步研究发现,52K 生成的数据比 Self-Instruct 发布的数据更加多样化。
支持的任务和排行榜
Alpaca 数据集设计用于预训练语言模型的指令训练。
语言
Alpaca 数据集中的数据为英语(BCP-47 en)。
数据集结构
数据实例
"train" 的一个示例如下:
json { "instruction": "Create a classification task by clustering the given list of items.", "input": "Apples, oranges, bananas, strawberries, pineapples", "output": "Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", "text": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.
Instruction:
Create a classification task by clustering the given list of items.
Input:
Apples, oranges, bananas, strawberries, pineapples
Response:
Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", }
数据字段
数据字段如下:
instruction:描述模型应执行的任务。52K 条指令均唯一。input:任务的上下文或输入(可选)。例如,当指令为“总结以下文章”时,输入为文章。约 40% 的示例包含输入。output:由text-davinci-003生成的指令答案。text:使用 提示模板 格式化的instruction、input和output。
数据分割
| train | |
|---|---|
| alpaca | 52002 |
数据集创建
数据集策展理由
[更多信息待补充]
源数据
初始数据收集和规范化
[更多信息待补充]
源语言生产者
[更多信息待补充]
注释
注释过程
[更多信息待补充]
注释者
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
讨论偏见
[更多信息待补充]
其他已知限制
alpaca 数据由语言模型 (text-davinci-003) 生成,不可避免地包含一些错误或偏见。建议用户谨慎使用此数据,并提出新的方法来过滤或改进这些不完美之处。
附加信息
数据集策展人
[更多信息待补充]
许可信息
数据集在 Creative Commons NonCommercial (CC BY-NC 4.0) 下提供。
引用信息
@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }
贡献
[更多信息待补充]



