alpaca-cleaned

Name: alpaca-cleaned
Creator: Unsloth AI
Published: 2025-12-22 18:21:18
License: 暂无描述

Hugging Face2025-12-22 更新2025-12-23 收录

下载链接：

https://huggingface.co/datasets/unsloth/alpaca-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

这是斯坦福发布的原始Alpaca数据集的清理版本。原始数据集中存在许多问题，如幻觉、合并指令、空输出等，这些问题在本数据集中得到了修复。Alpaca是一个包含52,000条指令和演示的数据集，由OpenAI的text-davinci-003引擎生成。这些指令数据可用于对语言模型进行指令微调，使语言模型更好地遵循指令。数据集中的每条指令都是唯一的，约40%的示例包含输入。数据字段包括'instruction'、'input'、'output'和'text'。数据集仅包含英文数据。

This is a cleaned version of the original Alpaca dataset released by Stanford. The original dataset contained various issues such as hallucinations, merged instructions, empty outputs and more, all of which have been fixed in this cleaned dataset. The Alpaca dataset consists of 52,000 instructions and demonstrations, generated using OpenAI's text-davinci-003 engine. This instruction data can be used for instruction tuning of language models, enabling them to better follow user instructions. Each instruction in the dataset is unique, and approximately 40% of the examples include an input field. The data fields include 'instruction', 'input', 'output' and 'text'. The dataset only contains English-language data.

提供机构：

Unsloth AI

创建时间：

2025-12-22

原始信息汇总

Alpaca-Cleaned 数据集概述

数据集基本信息

数据集名称: Alpaca-Cleaned
许可证: Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
语言: 英语 (en)
标签: instruction-finetuning
任务类别: 文本生成 (text-generation)
源仓库: https://github.com/gururise/AlpacaDataCleaned
派生自: https://huggingface.co/datasets/yahma/alpaca-cleaned

数据集描述

Alpaca-Cleaned 是斯坦福大学发布的原始 Alpaca 数据集的清理版本。此数据集修复了原始版本中存在的多个问题。

已修复的问题

幻觉问题: 原始数据集中许多指令引用了互联网数据，导致模型产生幻觉答案。
合并指令: 原始数据集中存在许多指令被错误合并的情况。
空输出: 原始数据集中部分条目的输出为空。
空代码示例: 原始数据集中部分描述缺少代码示例。
生成图像的指令: 原始数据集中包含无法执行的生成图像的指令。
N/A 输出: 原始数据集中部分代码片段的输出为 N/A。
不一致的输入字段: 原始数据集中输入字段为空时存在多种不一致的表示方式。
错误答案: 原始数据集中部分指令/问题包含错误答案，估计约 80% 的数学问题答案错误。
无意义/不清晰的指令: 原始数据集中存在许多不清晰的指令，已尝试澄清或重写。
多余的转义和控制字符: 原始数据集中多个条目包含多余的转义和控制字符。

原始 Alpaca 数据集摘要

Alpaca 是一个包含 52,000 条指令和演示的数据集，由 OpenAI 的 text-davinci-003 引擎生成。
该指令数据可用于对语言模型进行指令微调，使其更好地遵循指令。
生成过程基于 Self-Instruct 框架，并进行了多项修改以降低成本（低于 500 美元）并提高数据多样性。

数据集结构

数据实例

一个训练集示例如下： json { "instruction": "Create a classification task by clustering the given list of items.", "input": "Apples, oranges, bananas, strawberries, pineapples", "output": "Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", "text": "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:

Create a classification task by clustering the given list of items.

Input:

Apples, oranges, bananas, strawberries, pineapples

Response:

Class 1: Apples, Oranges Class 2: Bananas, Strawberries Class 3: Pineapples", }

数据字段

instruction: 描述模型应执行的任务。52K 条指令每条都是唯一的。
input: 任务的可选上下文或输入。约 40% 的示例包含输入。
output: 由 text-davinci-003 生成的指令答案。
text: 使用作者用于微调模型的提示模板格式化后的 instruction、input 和 output。

数据划分

数据集	训练集样本数
alpaca	52002

使用注意事项

该数据由语言模型 (text-davinci-003) 生成，不可避免地包含一些错误或偏见。
鼓励用户谨慎使用此数据，并提出过滤或改进缺陷的新方法。

许可信息

数据集采用知识共享署名-非商业性使用 4.0 国际许可协议 (CC BY-NC 4.0) 提供。

引用信息

@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/stanford_alpaca}}, }

搜集汇总

数据集介绍

构建方式

Alpaca-Cleaned数据集源自斯坦福大学发布的原始Alpaca数据集，该数据集通过OpenAI的text-davinci-003引擎生成，包含52,000条指令与演示样本，专为语言模型的指令微调而设计。构建过程中，研究团队基于Self-Instruct框架优化了数据生成流程，采用批量解码策略显著降低了成本，并简化了分类与非分类指令的区分，每条指令仅生成单一实例，从而提升了数据的多样性。随后，针对原始数据中存在的幻觉引用、合并指令、空输出及错误答案等问题，本数据集进行了系统性清洗与修正，确保了指令的清晰性与答案的准确性。

使用方法

在自然语言处理领域，Alpaca-Cleaned数据集主要用于指令跟随语言模型的微调任务。使用者可通过HuggingFace平台直接加载数据集，并利用其提供的instruction、input和output字段构建训练样本。典型的应用方式是将这些字段按照预设提示模板组合成完整文本，输入到基础语言模型中进行监督式微调，以提升模型遵循复杂指令的能力。研究人员应注意数据中可能残留的模型生成偏差，建议结合其他验证方法以确保模型输出的可靠性。该数据集适用于非商业学术研究，为探索指令优化、模型对齐及安全部署提供了标准化资源。

背景与挑战

背景概述

Alpaca-Cleaned数据集源自2023年斯坦福大学发布的Alpaca数据集，由Rohan Taori等研究人员基于Self-Instruct框架构建，旨在通过指令微调提升语言模型的指令遵循能力。该数据集包含52,000条由OpenAI的text-davinci-003引擎生成的指令-输出对，以低成本（低于500美元）实现了数据多样性，推动了开源社区在指令跟随模型领域的可控科学研究与应用探索。其清理版本针对原始数据中的噪声与错误进行了系统修复，为自然语言处理领域提供了更高质量的基准资源。

当前挑战

Alpaca-Cleaned数据集的核心挑战在于解决指令微调任务中数据质量与一致性问题。原始Alpaca数据集中存在指令幻觉、合并指令、空输出、错误答案及非敏感指令等多种缺陷，这些噪声直接影响模型训练的可靠性与泛化性能。构建过程中的挑战涉及大规模生成数据的清洗与规范化，需识别并修正数学问题错误、输入字段不一致、无关控制字符等复杂错误，同时保持指令语义的清晰性与任务覆盖的完整性，这对自动化清理流程的设计与验证提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，指令微调已成为提升大型语言模型遵循人类指令能力的关键技术。Alpaca-Cleaned数据集作为原始Alpaca数据集的净化版本，其最经典的使用场景在于为开源语言模型提供高质量的指令微调训练数据。通过移除原始数据中的幻觉内容、合并指令、空输出及错误答案等问题，该数据集确保了指令与响应的准确性和一致性，使得研究人员能够基于清洁数据训练出更可靠、更精准的指令跟随模型，从而推动模型在多样化任务上的泛化性能。

解决学术问题

Alpaca-Cleaned数据集主要解决了指令微调研究中数据质量参差不齐的学术难题。原始Alpaca数据集中存在的幻觉引用、错误答案及非敏感指令等问题，严重影响了模型训练的稳定性和效果评估的可靠性。该数据集通过系统性的清洗与修正，消除了这些噪声，为学术界提供了一个标准化、高质量的基准数据集，使得研究者能够更专注于模型架构与训练方法的创新，而非数据缺陷的干扰，从而加速了指令跟随模型的安全性与有效性研究。

实际应用

在实际应用层面，Alpaca-Cleaned数据集为开发智能对话系统和任务型助手提供了坚实的基础。基于该数据集微调的语言模型能够更准确地理解用户指令，并生成符合上下文的响应，广泛应用于客服自动化、教育辅导、内容生成等场景。例如，在客服领域，模型可依据清晰指令处理查询；在教育中，它能辅助解答问题或生成学习材料。数据集的清洁特性确保了应用输出的可靠性与实用性，降低了错误传播的风险。

数据集最近研究