five

weiwei888/VIS

收藏
Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/weiwei888/VIS
下载链接
链接失效反馈
官方服务:
资源简介:
Alpaca-Cleaned是斯坦福发布的原始Alpaca数据集的清理版本。该数据集修复了原始数据集中的多个问题,包括幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。数据集包含52,000个指令和演示,用于指令微调预训练语言模型,数据为英文。

Alpaca-Cleaned是斯坦福发布的原始Alpaca数据集的清理版本。该数据集修复了原始数据集中的多个问题,包括幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。数据集包含52,000个指令和演示,用于指令微调预训练语言模型,数据为英文。
提供机构:
weiwei888
原始信息汇总

数据集概述

数据集名称: Alpaca-Cleaned

原始数据集: Alpaca Dataset by Stanford

数据集描述: Alpaca-Cleaned 是 Stanford 发布的 Alpaca Dataset 的清理版本。该版本解决了原数据集中的多个问题,包括幻觉现象、指令合并、空输出、空代码示例、图像生成指令、N/A 输出、输入字段不一致、错误答案以及指令不清晰或无意义等问题。

数据集内容:

  • 指令 (instruction): 描述模型应执行的任务,每个指令都是唯一的。
  • 输入 (input): 任务的上下文或输入,约40%的示例包含输入。
  • 输出 (output):text-davinci-003 生成的指令答案。
  • 文本 (text): 使用作者提供的模板格式化的指令、输入和输出。

数据集结构:

  • 数据实例: 每个实例包含指令、可选的输入和输出。
  • 数据字段: 包括指令、输入、输出和文本。
  • 数据分割: 训练集包含52,002个实例。

数据集用途: Alpaca 数据集设计用于训练预训练语言模型遵循指令。

语言: 数据集中的数据为英语。

许可证: 数据集根据 Creative Commons NonCommercial (CC BY-NC 4.0) 许可提供。

数据集创建:

  • 数据生成: 使用 OpenAI 的 text-davinci-003 引擎生成,通过简化数据生成管道和使用更积极的批量解码来降低成本。
  • 数据多样性: 初步研究表明,生成的52K数据比 Self-Instruct 发布的数据更多样化。

使用注意事项:

  • 数据由语言模型生成,可能包含错误或偏见,建议谨慎使用并提出改进方法。
  • 发布此数据集旨在促进学术界进行受控的科学研究,但也存在风险,如可能被不良行为者用于创建有害模型。已实施内容过滤和输出水印等风险缓解措施。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作