five

Kushala/alpaca

收藏
Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Kushala/alpaca
下载链接
链接失效反馈
官方服务:
资源简介:
Alpaca-Cleaned数据集是原始Alpaca数据集的清理版本,修复了原始数据集中存在的多种问题,如幻觉、合并指令、空输出、空代码示例、生成图像指令、N/A输出、不一致输入字段、错误答案、非清晰指令和多余控制字符等。该数据集包含52,000条指令和演示,用于指令微调语言模型,使其更好地遵循指令。数据为英文,结构包括指令、输入、输出和格式化文本字段。

Alpaca-Cleaned数据集是原始Alpaca数据集的清理版本,修复了原始数据集中存在的多种问题,如幻觉、合并指令、空输出、空代码示例、生成图像指令、N/A输出、不一致输入字段、错误答案、非清晰指令和多余控制字符等。该数据集包含52,000条指令和演示,用于指令微调语言模型,使其更好地遵循指令。数据为英文,结构包括指令、输入、输出和格式化文本字段。
提供机构:
Kushala
原始信息汇总

数据集概述

数据集名称: Alpaca-Cleaned

原始数据集: Alpaca Dataset

数据集描述: Alpaca-Cleaned 是对原始 Alpaca Dataset 的清理版本,由斯坦福大学发布。该数据集解决了原始数据集中的多个问题,包括幻觉现象、合并的指令、空输出、空代码示例、生成图像的指令、N/A 输出、输入字段不一致、错误答案以及指令不清晰或无意义等问题。

数据集用途: 用于指令微调预训练语言模型,以提高模型遵循指令的能力。

数据集语言: 英语(BCP-47 en)

数据集结构:

  • 数据实例: 每个实例包含指令、可选输入、输出和格式化的文本。
  • 数据字段:
    • instruction: 描述模型应执行的任务。
    • input: 任务的上下文或输入,约40%的示例包含输入。
    • output: 由 text-davinci-003 生成的指令答案。
    • text: 使用作者提供的模板格式化的指令、输入和输出。

数据集创建:

  • 数据生成引擎: OpenAI 的 text-davinci-003
  • 数据生成方法: 基于 Self-Instruct 框架,进行了包括使用新提示、更积极的批量解码等修改。

数据集大小: 包含52,000个独特的指令示例。

许可证: Creative Commons NonCommercial (CC BY-NC 4.0)

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Kushala/alpaca是一个经过清洗的指令调优数据集,源自Stanford Alpaca数据集,修复了原始数据中的多种问题如幻觉、空输出等。数据集包含52,000条唯一指令,格式为json,语言为英语,适用于文本生成任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作