Kushala/alpaca
收藏Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Kushala/alpaca
下载链接
链接失效反馈官方服务:
资源简介:
Alpaca-Cleaned数据集是原始Alpaca数据集的清理版本,修复了原始数据集中存在的多种问题,如幻觉、合并指令、空输出、空代码示例、生成图像指令、N/A输出、不一致输入字段、错误答案、非清晰指令和多余控制字符等。该数据集包含52,000条指令和演示,用于指令微调语言模型,使其更好地遵循指令。数据为英文,结构包括指令、输入、输出和格式化文本字段。
Alpaca-Cleaned数据集是原始Alpaca数据集的清理版本,修复了原始数据集中存在的多种问题,如幻觉、合并指令、空输出、空代码示例、生成图像指令、N/A输出、不一致输入字段、错误答案、非清晰指令和多余控制字符等。该数据集包含52,000条指令和演示,用于指令微调语言模型,使其更好地遵循指令。数据为英文,结构包括指令、输入、输出和格式化文本字段。
提供机构:
Kushala
原始信息汇总
数据集概述
数据集名称: Alpaca-Cleaned
原始数据集: Alpaca Dataset
数据集描述: Alpaca-Cleaned 是对原始 Alpaca Dataset 的清理版本,由斯坦福大学发布。该数据集解决了原始数据集中的多个问题,包括幻觉现象、合并的指令、空输出、空代码示例、生成图像的指令、N/A 输出、输入字段不一致、错误答案以及指令不清晰或无意义等问题。
数据集用途: 用于指令微调预训练语言模型,以提高模型遵循指令的能力。
数据集语言: 英语(BCP-47 en)
数据集结构:
- 数据实例: 每个实例包含指令、可选输入、输出和格式化的文本。
- 数据字段:
instruction: 描述模型应执行的任务。input: 任务的上下文或输入,约40%的示例包含输入。output: 由text-davinci-003生成的指令答案。text: 使用作者提供的模板格式化的指令、输入和输出。
数据集创建:
- 数据生成引擎: OpenAI 的
text-davinci-003 - 数据生成方法: 基于 Self-Instruct 框架,进行了包括使用新提示、更积极的批量解码等修改。
数据集大小: 包含52,000个独特的指令示例。
许可证: Creative Commons NonCommercial (CC BY-NC 4.0)
搜集汇总
数据集介绍

背景与挑战
背景概述
Kushala/alpaca是一个经过清洗的指令调优数据集,源自Stanford Alpaca数据集,修复了原始数据中的多种问题如幻觉、空输出等。数据集包含52,000条唯一指令,格式为json,语言为英语,适用于文本生成任务。
以上内容由遇见数据集搜集并总结生成



