five

dominguesm/alpaca-data-pt-br

收藏
Hugging Face2023-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dominguesm/alpaca-data-pt-br
下载链接
链接失效反馈
官方服务:
资源简介:
Alpaca-Cleaned-PTBR数据集是原始Alpaca数据集的清理版本,修复了原始数据集中存在的多个问题,如幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。数据集主要用于指令微调预训练语言模型,包含52,000个指令和演示,生成自OpenAI的`text-davinci-003`引擎。数据集的创建基于Self-Instruct框架,并进行了多项修改以降低成本并提高数据多样性。
提供机构:
dominguesm
原始信息汇总

数据集卡片 for Alpaca-Cleaned-PTBR

数据集描述

这是一个经过清洗的原始Alpaca数据集版本,由斯坦福大学发布。在原始发布中发现了以下问题,并在本数据集中进行了修复:

  1. 幻觉问题:原始数据集中的许多指令引用了互联网上的数据,导致GPT3产生幻觉答案。
  2. 合并指令:原始数据集中有许多指令被合并在一起。
  3. 空输出:原始数据集中的一些条目有空输出。
  4. 空代码示例:原始数据集中的一些描述缺少代码示例,难以理解代码的预期行为。
  5. 生成图像的指令:原始数据集中的一些描述包含生成图像的指令,显然不可能实现。
  6. N/A输出:原始数据集中的一些代码片段有N/A输出。
  7. 不一致的输入字段:原始数据集在输入字段应为空时使用不一致。
  8. 错误答案:原始数据集中的一些指令/问题有错误答案。约80%的数学问题估计有错误答案。
  9. 无意义/不清晰的指令:许多指令不清晰,我们尝试澄清(或重写)如果指令无意义。稍微不清晰的指令,但可以推断出含义的,不会被更改。
  10. 多余的转义和控制字符:原始数据集中有许多条目包含多余的转义和控制字符。

原始Alpaca数据集概述

Alpaca是一个包含52,000条指令和演示的数据集,由OpenAI的text-davinci-003引擎生成。这些指令数据可用于进行语言模型的指令调优,使语言模型更好地遵循指令。

作者基于Self-Instruct框架的数据生成流程进行了以下修改:

  • 使用text-davinci-003引擎生成指令数据,而不是davinci
  • 编写了一个新提示,明确给出了指令生成的要求。
  • 使用更积极的批量解码,即一次生成20条指令,显著降低了数据生成成本。
  • 简化了数据生成流程,放弃了分类和非分类指令之间的区别。
  • 每个指令只生成一个实例,而不是像Self-Instruct中的2到3个实例。

这产生了一个包含52K示例的指令遵循数据集,成本大大降低(不到$500)。初步研究发现,52K生成的数据比Self-Instruct发布的数据更加多样化。

支持的任务和排行榜

Alpaca数据集旨在用于预训练语言模型的指令训练。

语言

Alpaca数据集中的数据为英语(BCP-47 en)。

数据集结构

数据实例

"train"的一个示例如下:

json { "instruction": "Create a classification task by clustering the given list of items.", "input": "Apples, oranges, bananas, strawberries, pineapples", "output": "Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", "text": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:

Create a classification task by clustering the given list of items.

Input:

Apples, oranges, bananas, strawberries, pineapples

Response:

Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", }

数据字段

数据字段如下:

  • instruction:描述模型应执行的任务。52K条指令中的每一条都是唯一的。
  • input:任务的可选上下文或输入。例如,当指令是“总结以下文章”时,输入是文章。约40%的示例有输入。
  • outputtext-davinci-003生成的指令答案。
  • text:使用作者用于微调模型的提示模板格式化的instructioninputoutput

数据分割

train
alpaca 52002

数据集创建

数据集信息

  • 特征
    • instruction:字符串类型
    • input:字符串类型
    • output:字符串类型
  • 分割
    • train:字节数为18324606,示例数为51759
  • 下载大小:11508709
  • 数据集大小:18324606
  • 许可证:cc-by-nc-4.0
  • 语言:葡萄牙语(pt)
  • 标签:instruction-finetuning
  • 美观名称:Alpaca-Cleaned-PTBR
  • 任务类别:text-generation

使用数据集的注意事项

数据集的社会影响

我们相信,发布上述资产将使学术界能够进行受控的科学研究,以改进指令遵循语言模型,最终产生新的技术来解决这些模型的现有缺陷。同时,任何发布都存在一定风险。首先,我们认识到发布我们的训练配方揭示了某些能力的可能性。一方面,这使得更多人(包括不良行为者)能够创建可能造成伤害(有意或无意)的模型。另一方面,这种意识可能会激励迅速的防御行动,特别是来自学术界的防御行动,现在有了进行更深入安全研究的能力。总的来说,我们认为研究社区的利益超过了这种特定发布的风险。鉴于我们正在发布训练配方,我们认为发布数据、模型权重和训练代码带来的进一步风险最小,考虑到配方的简单性。同时,发布这些资产对可重复科学有巨大好处,使学术界可以使用标准数据集、模型和代码进行受控比较和探索扩展。部署Alpaca的交互式演示也存在潜在风险,例如更广泛地传播有害内容和降低垃圾邮件、欺诈或虚假信息的门槛。我们采取了两种风险缓解策略。首先,我们使用OpenAI的内容审核API实施了内容过滤器,过滤掉OpenAI使用政策定义的有害内容。其次,我们使用Kirchenbauer等人2023年描述的方法对所有模型输出进行水印处理,以便其他人可以(有一定概率)检测输出是否来自Alpaca 7B。最后,我们对使用演示有严格的条款和条件;它仅限于非商业用途,并遵循LLaMA的许可协议。我们理解,一旦我们发布模型权重或用户训练自己的指令遵循模型,这些缓解措施可能会被绕过。然而,通过安装这些缓解措施,我们希望推进最佳实践,并最终为负责任的基础模型部署制定社区规范。

数据集的已知限制

alpaca数据由语言模型(text-davinci-003)生成,不可避免地包含一些错误或偏见。我们鼓励用户谨慎使用此数据,并提出新的方法来过滤或改进不完美之处。

附加信息

许可证信息

数据集在Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)下可用。

引用信息

@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作