weiwei888/VIS

Name: weiwei888/VIS
Creator: weiwei888
Published: 2024-04-28 05:41:24
License: 暂无描述

Hugging Face2024-04-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/weiwei888/VIS

下载链接

链接失效反馈

官方服务：

资源简介：

Alpaca-Cleaned是斯坦福发布的原始Alpaca数据集的清理版本。该数据集修复了原始数据集中的多个问题，包括幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。数据集包含52,000个指令和演示，用于指令微调预训练语言模型，数据为英文。

提供机构：

weiwei888

原始信息汇总

数据集概述

数据集名称: Alpaca-Cleaned

原始数据集: Alpaca Dataset by Stanford

数据集描述: Alpaca-Cleaned 是 Stanford 发布的 Alpaca Dataset 的清理版本。该版本解决了原数据集中的多个问题，包括幻觉现象、指令合并、空输出、空代码示例、图像生成指令、N/A 输出、输入字段不一致、错误答案以及指令不清晰或无意义等问题。

数据集内容:

指令 (instruction): 描述模型应执行的任务，每个指令都是唯一的。
输入 (input): 任务的上下文或输入，约40%的示例包含输入。
输出 (output): 由 text-davinci-003 生成的指令答案。
文本 (text): 使用作者提供的模板格式化的指令、输入和输出。

数据集结构:

数据实例: 每个实例包含指令、可选的输入和输出。
数据字段: 包括指令、输入、输出和文本。
数据分割: 训练集包含52,002个实例。

数据集用途: Alpaca 数据集设计用于训练预训练语言模型遵循指令。

语言: 数据集中的数据为英语。

许可证: 数据集根据 Creative Commons NonCommercial (CC BY-NC 4.0) 许可提供。

数据集创建:

数据生成: 使用 OpenAI 的 text-davinci-003 引擎生成，通过简化数据生成管道和使用更积极的批量解码来降低成本。
数据多样性: 初步研究表明，生成的52K数据比 Self-Instruct 发布的数据更多样化。

使用注意事项:

数据由语言模型生成，可能包含错误或偏见，建议谨慎使用并提出改进方法。
发布此数据集旨在促进学术界进行受控的科学研究，但也存在风险，如可能被不良行为者用于创建有害模型。已实施内容过滤和输出水印等风险缓解措施。

5,000+

优质数据集

54 个

任务类型

进入经典数据集