weiwei888/VIS
收藏Hugging Face2024-04-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/weiwei888/VIS
下载链接
链接失效反馈官方服务:
资源简介:
Alpaca-Cleaned是斯坦福发布的原始Alpaca数据集的清理版本。该数据集修复了原始数据集中的多个问题,包括幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。数据集包含52,000个指令和演示,用于指令微调预训练语言模型,数据为英文。
Alpaca-Cleaned是斯坦福发布的原始Alpaca数据集的清理版本。该数据集修复了原始数据集中的多个问题,包括幻觉、合并指令、空输出、空代码示例、生成图像的指令、N/A输出、不一致的输入字段、错误答案、非清晰指令以及多余的转义和控制字符。数据集包含52,000个指令和演示,用于指令微调预训练语言模型,数据为英文。
提供机构:
weiwei888
原始信息汇总
数据集概述
数据集名称: Alpaca-Cleaned
原始数据集: Alpaca Dataset by Stanford
数据集描述: Alpaca-Cleaned 是 Stanford 发布的 Alpaca Dataset 的清理版本。该版本解决了原数据集中的多个问题,包括幻觉现象、指令合并、空输出、空代码示例、图像生成指令、N/A 输出、输入字段不一致、错误答案以及指令不清晰或无意义等问题。
数据集内容:
- 指令 (instruction): 描述模型应执行的任务,每个指令都是唯一的。
- 输入 (input): 任务的上下文或输入,约40%的示例包含输入。
- 输出 (output): 由
text-davinci-003生成的指令答案。 - 文本 (text): 使用作者提供的模板格式化的指令、输入和输出。
数据集结构:
- 数据实例: 每个实例包含指令、可选的输入和输出。
- 数据字段: 包括指令、输入、输出和文本。
- 数据分割: 训练集包含52,002个实例。
数据集用途: Alpaca 数据集设计用于训练预训练语言模型遵循指令。
语言: 数据集中的数据为英语。
许可证: 数据集根据 Creative Commons NonCommercial (CC BY-NC 4.0) 许可提供。
数据集创建:
- 数据生成: 使用 OpenAI 的
text-davinci-003引擎生成,通过简化数据生成管道和使用更积极的批量解码来降低成本。 - 数据多样性: 初步研究表明,生成的52K数据比 Self-Instruct 发布的数据更多样化。
使用注意事项:
- 数据由语言模型生成,可能包含错误或偏见,建议谨慎使用并提出改进方法。
- 发布此数据集旨在促进学术界进行受控的科学研究,但也存在风险,如可能被不良行为者用于创建有害模型。已实施内容过滤和输出水印等风险缓解措施。



