dominguesm/alpaca-data-pt-br

Name: dominguesm/alpaca-data-pt-br
Creator: dominguesm
Published: 2023-11-17 08:51:52
License: 暂无描述

Hugging Face2023-11-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dominguesm/alpaca-data-pt-br

下载链接

链接失效反馈

官方服务：

资源简介：

Alpaca-Cleaned-PTBR数据集是原始Alpaca数据集的清理版本，修复了原始数据集中存在的多个问题，如幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。数据集主要用于指令微调预训练语言模型，包含52,000个指令和演示，生成自OpenAI的`text-davinci-003`引擎。数据集的创建基于Self-Instruct框架，并进行了多项修改以降低成本并提高数据多样性。

提供机构：

dominguesm

原始信息汇总

数据集卡片 for Alpaca-Cleaned-PTBR

数据集描述

这是一个经过清洗的原始Alpaca数据集版本，由斯坦福大学发布。在原始发布中发现了以下问题，并在本数据集中进行了修复：

幻觉问题：原始数据集中的许多指令引用了互联网上的数据，导致GPT3产生幻觉答案。
合并指令：原始数据集中有许多指令被合并在一起。
空输出：原始数据集中的一些条目有空输出。
空代码示例：原始数据集中的一些描述缺少代码示例，难以理解代码的预期行为。
生成图像的指令：原始数据集中的一些描述包含生成图像的指令，显然不可能实现。
N/A输出：原始数据集中的一些代码片段有N/A输出。
不一致的输入字段：原始数据集在输入字段应为空时使用不一致。
错误答案：原始数据集中的一些指令/问题有错误答案。约80%的数学问题估计有错误答案。
无意义/不清晰的指令：许多指令不清晰，我们尝试澄清（或重写）如果指令无意义。稍微不清晰的指令，但可以推断出含义的，不会被更改。
多余的转义和控制字符：原始数据集中有许多条目包含多余的转义和控制字符。

原始Alpaca数据集概述

Alpaca是一个包含52,000条指令和演示的数据集，由OpenAI的text-davinci-003引擎生成。这些指令数据可用于进行语言模型的指令调优，使语言模型更好地遵循指令。

作者基于Self-Instruct框架的数据生成流程进行了以下修改：

使用text-davinci-003引擎生成指令数据，而不是davinci。
编写了一个新提示，明确给出了指令生成的要求。
使用更积极的批量解码，即一次生成20条指令，显著降低了数据生成成本。
简化了数据生成流程，放弃了分类和非分类指令之间的区别。
每个指令只生成一个实例，而不是像Self-Instruct中的2到3个实例。

这产生了一个包含52K示例的指令遵循数据集，成本大大降低（不到$500）。初步研究发现，52K生成的数据比Self-Instruct发布的数据更加多样化。

支持的任务和排行榜

Alpaca数据集旨在用于预训练语言模型的指令训练。

语言

Alpaca数据集中的数据为英语（BCP-47 en）。

数据集结构

数据实例

"train"的一个示例如下：

json { "instruction": "Create a classification task by clustering the given list of items.", "input": "Apples, oranges, bananas, strawberries, pineapples", "output": "Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", "text": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:

Create a classification task by clustering the given list of items.

Input:

Apples, oranges, bananas, strawberries, pineapples

Response:

Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", }

数据字段

数据字段如下：

instruction：描述模型应执行的任务。52K条指令中的每一条都是唯一的。
input：任务的可选上下文或输入。例如，当指令是“总结以下文章”时，输入是文章。约40%的示例有输入。
output：text-davinci-003生成的指令答案。
text：使用作者用于微调模型的提示模板格式化的instruction、input和output。

数据分割

	train
alpaca	52002

数据集创建

数据集信息

特征：
- instruction：字符串类型
- input：字符串类型
- output：字符串类型
分割：
- train：字节数为18324606，示例数为51759
下载大小：11508709
数据集大小：18324606
许可证：cc-by-nc-4.0
语言：葡萄牙语（pt）
标签：instruction-finetuning
美观名称：Alpaca-Cleaned-PTBR
任务类别：text-generation

使用数据集的注意事项

数据集的社会影响

我们相信，发布上述资产将使学术界能够进行受控的科学研究，以改进指令遵循语言模型，最终产生新的技术来解决这些模型的现有缺陷。同时，任何发布都存在一定风险。首先，我们认识到发布我们的训练配方揭示了某些能力的可能性。一方面，这使得更多人（包括不良行为者）能够创建可能造成伤害（有意或无意）的模型。另一方面，这种意识可能会激励迅速的防御行动，特别是来自学术界的防御行动，现在有了进行更深入安全研究的能力。总的来说，我们认为研究社区的利益超过了这种特定发布的风险。鉴于我们正在发布训练配方，我们认为发布数据、模型权重和训练代码带来的进一步风险最小，考虑到配方的简单性。同时，发布这些资产对可重复科学有巨大好处，使学术界可以使用标准数据集、模型和代码进行受控比较和探索扩展。部署Alpaca的交互式演示也存在潜在风险，例如更广泛地传播有害内容和降低垃圾邮件、欺诈或虚假信息的门槛。我们采取了两种风险缓解策略。首先，我们使用OpenAI的内容审核API实施了内容过滤器，过滤掉OpenAI使用政策定义的有害内容。其次，我们使用Kirchenbauer等人2023年描述的方法对所有模型输出进行水印处理，以便其他人可以（有一定概率）检测输出是否来自Alpaca 7B。最后，我们对使用演示有严格的条款和条件；它仅限于非商业用途，并遵循LLaMA的许可协议。我们理解，一旦我们发布模型权重或用户训练自己的指令遵循模型，这些缓解措施可能会被绕过。然而，通过安装这些缓解措施，我们希望推进最佳实践，并最终为负责任的基础模型部署制定社区规范。

数据集的已知限制

alpaca数据由语言模型（text-davinci-003）生成，不可避免地包含一些错误或偏见。我们鼓励用户谨慎使用此数据，并提出新的方法来过滤或改进不完美之处。

附加信息

许可证信息

数据集在Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)下可用。

引用信息

@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集