five

MagedGaman/AB1

收藏
Hugging Face2024-04-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MagedGaman/AB1
下载链接
链接失效反馈
官方服务:
资源简介:
Alpaca-Cleaned数据集是对斯坦福大学发布的原始Alpaca数据集的清理版本。原始数据集中存在多个问题,如幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。该数据集通过修复这些问题,提供了一个更干净、更可靠的指令数据集,可用于语言模型的指令微调。原始Alpaca数据集包含52,000条指令和演示,由OpenAI的`text-davinci-003`引擎生成,旨在通过指令微调使语言模型更好地遵循指令。

Alpaca-Cleaned数据集是对斯坦福大学发布的原始Alpaca数据集的清理版本。原始数据集中存在多个问题,如幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。该数据集通过修复这些问题,提供了一个更干净、更可靠的指令数据集,可用于语言模型的指令微调。原始Alpaca数据集包含52,000条指令和演示,由OpenAI的`text-davinci-003`引擎生成,旨在通过指令微调使语言模型更好地遵循指令。
提供机构:
MagedGaman
原始信息汇总

数据集概述

名称: Alpaca-Cleaned

描述: 这是斯坦福大学发布的原始Alpaca数据集的一个清理版本。该数据集解决了原始版本中的多个问题,包括幻觉、合并的指令、空输出、空代码示例、生成图像的指令、N/A输出、输入字段不一致、错误答案以及指令不清晰或无意义等问题。

许可: Creative Commons NonCommercial (CC BY-NC 4.0)

语言: 英语 (BCP-47 en)

标签: instruction-finetuning

任务类别: text-generation

数据集结构:

  • 数据实例: 每个实例包含instruction, input, output, text四个字段。
    • instruction: 描述模型应执行的任务。
    • input: 任务的上下文或输入,约40%的示例包含此字段。
    • output: 由text-davinci-003生成的指令答案。
    • text: 使用作者提供的模板格式化的instruction, input, output

数据分割:

train
alpaca 52002

原始Alpaca数据集总结:

Alpaca是一个包含52,000个指令和演示的数据集,由OpenAI的text-davinci-003引擎生成。该数据集用于语言模型的指令微调,以提高模型遵循指令的能力。作者基于Self-Instruct框架进行了修改,包括使用text-davinci-003引擎生成指令数据,使用新的提示模板,采用更激进的批量解码,简化数据生成管道,以及每个指令只生成一个实例。

支持的任务和排行榜:

Alpaca数据集设计用于训练预训练语言模型遵循指令。

使用考虑:

数据集由语言模型生成,可能包含错误或偏见。建议用户谨慎使用,并提出新的方法来过滤或改进这些不完美之处。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作