MagedGaman/AB1

Name: MagedGaman/AB1
Creator: MagedGaman
Published: 2024-04-30 03:35:50
License: 暂无描述

Hugging Face2024-04-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/MagedGaman/AB1

下载链接

链接失效反馈

官方服务：

资源简介：

Alpaca-Cleaned数据集是对斯坦福大学发布的原始Alpaca数据集的清理版本。原始数据集中存在多个问题，如幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。该数据集通过修复这些问题，提供了一个更干净、更可靠的指令数据集，可用于语言模型的指令微调。原始Alpaca数据集包含52,000条指令和演示，由OpenAI的`text-davinci-003`引擎生成，旨在通过指令微调使语言模型更好地遵循指令。

提供机构：

MagedGaman

原始信息汇总

数据集概述

名称: Alpaca-Cleaned

描述: 这是斯坦福大学发布的原始Alpaca数据集的一个清理版本。该数据集解决了原始版本中的多个问题，包括幻觉、合并的指令、空输出、空代码示例、生成图像的指令、N/A输出、输入字段不一致、错误答案以及指令不清晰或无意义等问题。

许可: Creative Commons NonCommercial (CC BY-NC 4.0)

语言: 英语 (BCP-47 en)

标签: instruction-finetuning

任务类别: text-generation

数据集结构:

数据实例: 每个实例包含instruction, input, output, text四个字段。
- instruction: 描述模型应执行的任务。
- input: 任务的上下文或输入，约40%的示例包含此字段。
- output: 由text-davinci-003生成的指令答案。
- text: 使用作者提供的模板格式化的instruction, input, output。

数据分割:

	train
alpaca	52002

原始Alpaca数据集总结:

Alpaca是一个包含52,000个指令和演示的数据集，由OpenAI的text-davinci-003引擎生成。该数据集用于语言模型的指令微调，以提高模型遵循指令的能力。作者基于Self-Instruct框架进行了修改，包括使用text-davinci-003引擎生成指令数据，使用新的提示模板，采用更激进的批量解码，简化数据生成管道，以及每个指令只生成一个实例。

支持的任务和排行榜:

Alpaca数据集设计用于训练预训练语言模型遵循指令。

使用考虑:

数据集由语言模型生成，可能包含错误或偏见。建议用户谨慎使用，并提出新的方法来过滤或改进这些不完美之处。

5,000+

优质数据集

54 个

任务类型

进入经典数据集