Alpaca-clean-archive
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Alpaca-clean-archive
下载链接
链接失效反馈官方服务:
资源简介:
这是斯坦福发布的原始羊驼数据集的清理版本。在原始版本中已发现以下问题,并在此数据集中进行了修复:
1.幻觉: 原始数据集中的许多指令都有引用互联网上数据的指令,这导致GPT3产生幻觉。
2.合并指令: 由于某些原因,在原始数据集中有许多指令被合并在一起。
3.空输出: 原始数据集中的某些条目具有空输出。
4.空代码示例: 原始数据集中的某些描述缺少代码示例,因此很难理解代码的预期行为。
5.生成图像的指令: 原始数据集中的一些描述包括生成图像的指令,这显然是不可能的。
提供机构:
OpenDataLab
创建时间:
2023-04-26
搜集汇总
数据集介绍

背景与挑战
背景概述
Alpaca-clean-archive是斯坦福大学在2023年发布的原始羊驼数据集的清理版本,解决了原始数据中的幻觉、合并指令和空输出等问题。该数据集包含52K演示,用于微调Alpaca模型,适用于文本预训练和自然语言处理任务,采用CC BY-NC 4.0许可证。
以上内容由遇见数据集搜集并总结生成



