aaaalon/mydata

Name: aaaalon/mydata
Creator: aaaalon
Published: 2024-05-26 01:07:58
License: 暂无描述

Hugging Face2024-05-26 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/aaaalon/mydata

下载链接

链接失效反馈

官方服务：

资源简介：

Alpaca-Cleaned是原始Alpaca数据集的清理版本，修复了原始数据集中存在的多个问题，如幻觉、合并指令、空输出、不一致的输入字段等。该数据集包含52,000个指令和演示，主要用于指令微调预训练语言模型，使其更好地遵循指令。数据为英文。

提供机构：

aaaalon

原始信息汇总

数据集卡片 for Alpaca-Cleaned

数据集描述

Alpaca-Cleaned 是斯坦福大学发布的原始 Alpaca 数据集的清洁版本。原始数据集存在以下问题，已在清洁版本中修复：

幻觉问题：原始数据集中的许多指令引用互联网上的数据，导致 GPT3 产生幻觉答案。
合并指令：原始数据集中有许多指令被合并在一起。
空输出：原始数据集中的一些条目输出为空。
缺少代码示例：原始数据集中的一些描述缺少代码示例，难以理解代码的预期行为。
生成图像指令：原始数据集中包含生成图像的指令，显然不可能实现。
N/A 输出：原始数据集中的一些代码片段输出为 N/A。
输入字段不一致：原始数据集在输入字段应为空时使用不一致。
错误答案：原始数据集中的一些指令/问题答案不正确。约 80% 的数学问题答案不正确。
无意义/不清晰的指令：原始数据集中有许多不清晰或无意义的指令，已尝试澄清或重写。
多余转义和控制字符：原始数据集中包含多余的转义和控制字符。

原始 Alpaca 数据集概述

Alpaca 是一个包含 52,000 条指令和演示的数据集，由 OpenAI 的 text-davinci-003 引擎生成。该指令数据可用于进行语言模型的指令微调，使语言模型更好地遵循指令。

作者基于 Self-Instruct 框架的数据生成流程进行了以下修改：

使用 text-davinci-003 引擎生成指令数据，而非 davinci。
编写了一个新提示，明确给出了指令生成的要求。
采用更积极的批量解码，即一次生成 20 条指令，显著降低了数据生成成本。
简化了数据生成流程，摒弃了分类和非分类指令的区别。
每条指令仅生成一个实例，而非 Self-Instruct 中的 2 到 3 个实例。

这产生了一个包含 52K 示例的指令遵循数据集，成本大幅降低（不到 500 美元）。初步研究发现，52K 生成的数据比 Self-Instruct 发布的数据更加多样化。

支持的任务和排行榜

Alpaca 数据集设计用于预训练语言模型的指令训练。

语言

Alpaca 数据集中的数据为英语（BCP-47 en）。

数据集结构

数据实例

"train" 的一个示例如下：

json { "instruction": "Create a classification task by clustering the given list of items.", "input": "Apples, oranges, bananas, strawberries, pineapples", "output": "Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", "text": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:

Create a classification task by clustering the given list of items.

Input:

Apples, oranges, bananas, strawberries, pineapples

Response:

Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", }

数据字段

数据字段如下：

instruction：描述模型应执行的任务。52K 条指令均唯一。
input：任务的上下文或输入（可选）。例如，当指令为“总结以下文章”时，输入为文章。约 40% 的示例包含输入。
output：由 text-davinci-003 生成的指令答案。
text：使用提示模板格式化的 instruction、input 和 output。

数据分割

	train
alpaca	52002

数据集创建

数据集策展理由

[更多信息待补充]

源数据

初始数据收集和规范化

[更多信息待补充]

源语言生产者

[更多信息待补充]

注释

注释过程

[更多信息待补充]

注释者

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

讨论偏见

[更多信息待补充]

其他已知限制

alpaca 数据由语言模型 (text-davinci-003) 生成，不可避免地包含一些错误或偏见。建议用户谨慎使用此数据，并提出新的方法来过滤或改进这些不完美之处。

附加信息

数据集策展人

[更多信息待补充]

许可信息

数据集在 Creative Commons NonCommercial (CC BY-NC 4.0) 下提供。

引用信息

@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }

贡献

[更多信息待补充]

5,000+

优质数据集

54 个

任务类型

进入经典数据集