five

aaaalon/mydata

收藏
Hugging Face2024-05-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/aaaalon/mydata
下载链接
链接失效反馈
官方服务:
资源简介:
Alpaca-Cleaned是原始Alpaca数据集的清理版本,修复了原始数据集中存在的多个问题,如幻觉、合并指令、空输出、不一致的输入字段等。该数据集包含52,000个指令和演示,主要用于指令微调预训练语言模型,使其更好地遵循指令。数据为英文。

Alpaca-Cleaned是原始Alpaca数据集的清理版本,修复了原始数据集中存在的多个问题,如幻觉、合并指令、空输出、不一致的输入字段等。该数据集包含52,000个指令和演示,主要用于指令微调预训练语言模型,使其更好地遵循指令。数据为英文。
提供机构:
aaaalon
原始信息汇总

数据集卡片 for Alpaca-Cleaned

数据集描述

Alpaca-Cleaned 是斯坦福大学发布的原始 Alpaca 数据集的清洁版本。原始数据集存在以下问题,已在清洁版本中修复:

  1. 幻觉问题:原始数据集中的许多指令引用互联网上的数据,导致 GPT3 产生幻觉答案。
  2. 合并指令:原始数据集中有许多指令被合并在一起。
  3. 空输出:原始数据集中的一些条目输出为空。
  4. 缺少代码示例:原始数据集中的一些描述缺少代码示例,难以理解代码的预期行为。
  5. 生成图像指令:原始数据集中包含生成图像的指令,显然不可能实现。
  6. N/A 输出:原始数据集中的一些代码片段输出为 N/A。
  7. 输入字段不一致:原始数据集在输入字段应为空时使用不一致。
  8. 错误答案:原始数据集中的一些指令/问题答案不正确。约 80% 的数学问题答案不正确。
  9. 无意义/不清晰的指令:原始数据集中有许多不清晰或无意义的指令,已尝试澄清或重写。
  10. 多余转义和控制字符:原始数据集中包含多余的转义和控制字符。

原始 Alpaca 数据集概述

Alpaca 是一个包含 52,000 条指令和演示的数据集,由 OpenAI 的 text-davinci-003 引擎生成。该指令数据可用于进行语言模型的指令微调,使语言模型更好地遵循指令。

作者基于 Self-Instruct 框架 的数据生成流程进行了以下修改:

  • 使用 text-davinci-003 引擎生成指令数据,而非 davinci
  • 编写了一个 新提示,明确给出了指令生成的要求。
  • 采用更积极的批量解码,即一次生成 20 条指令,显著降低了数据生成成本。
  • 简化了数据生成流程,摒弃了分类和非分类指令的区别。
  • 每条指令仅生成一个实例,而非 Self-Instruct 中的 2 到 3 个实例。

这产生了一个包含 52K 示例的指令遵循数据集,成本大幅降低(不到 500 美元)。初步研究发现,52K 生成的数据比 Self-Instruct 发布的数据更加多样化。

支持的任务和排行榜

Alpaca 数据集设计用于预训练语言模型的指令训练。

语言

Alpaca 数据集中的数据为英语(BCP-47 en)。

数据集结构

数据实例

"train" 的一个示例如下:

json { "instruction": "Create a classification task by clustering the given list of items.", "input": "Apples, oranges, bananas, strawberries, pineapples", "output": "Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", "text": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:

Create a classification task by clustering the given list of items.

Input:

Apples, oranges, bananas, strawberries, pineapples

Response:

Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", }

数据字段

数据字段如下:

  • instruction:描述模型应执行的任务。52K 条指令均唯一。
  • input:任务的上下文或输入(可选)。例如,当指令为“总结以下文章”时,输入为文章。约 40% 的示例包含输入。
  • output:由 text-davinci-003 生成的指令答案。
  • text:使用 提示模板 格式化的 instructioninputoutput

数据分割

train
alpaca 52002

数据集创建

数据集策展理由

[更多信息待补充]

源数据

初始数据收集和规范化

[更多信息待补充]

源语言生产者

[更多信息待补充]

注释

注释过程

[更多信息待补充]

注释者

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

讨论偏见

[更多信息待补充]

其他已知限制

alpaca 数据由语言模型 (text-davinci-003) 生成,不可避免地包含一些错误或偏见。建议用户谨慎使用此数据,并提出新的方法来过滤或改进这些不完美之处。

附加信息

数据集策展人

[更多信息待补充]

许可信息

数据集在 Creative Commons NonCommercial (CC BY-NC 4.0) 下提供。

引用信息

@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }

贡献

[更多信息待补充]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作