yahma/alpaca-cleaned

Name: yahma/alpaca-cleaned
Creator: yahma
Published: 2023-04-10 20:29:06
License: 暂无描述

Hugging Face2023-04-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yahma/alpaca-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

Alpaca-Cleaned数据集是对原始Alpaca数据集的清理版本，修复了包括幻觉、合并指令、空输出、空代码示例、生成图像指令、N/A输出、不一致输入字段、错误答案、非清晰指令和多余控制字符等问题。数据集包含52,000条指令和演示，用于指令调优语言模型，使其更好地遵循指令。数据集为英文，结构包括指令、输入、输出和格式化文本字段。数据集的创建基于Self-Instruct框架，使用text-davinci-003引擎生成指令数据，并通过更积极的批量解码降低成本。数据集的使用考虑了社会影响、偏见和已知限制，并提供了许可证和引用信息。

The Alpaca-Cleaned dataset is a cleaned variant of the original Alpaca dataset, addressing issues such as hallucinations, merged instructions, empty outputs, empty code examples, image generation instructions, N/A outputs, inconsistent input fields, incorrect answers, unclear instructions, and redundant control characters. This dataset contains 52,000 instructions and demonstrations, designed for instruction-tuning language models to enhance their ability to follow user instructions. The dataset is in English, with its structure comprising instruction, input, output, and formatted text fields. Developed based on the Self-Instruct framework, the dataset was created using the text-davinci-003 engine to generate instruction data, with costs reduced via more aggressive batch decoding. Considerations for social impacts, biases, and known limitations are taken into account when using this dataset, and relevant license and citation information are also provided.

提供机构：

yahma

原始信息汇总

数据集概述

数据集名称: Alpaca-Cleaned

原始数据集: Alpaca

数据集来源: Stanford

数据集版本: 清洁版

主要用途: 用于语言模型的指令微调

语言: 英语 (BCP-47 en)

许可证: Creative Commons NonCommercial (CC BY-NC 4.0)

数据集内容

数据集问题及修正:

幻觉问题: 原始数据集中许多指令引用互联网数据，导致GPT3产生幻觉答案。
合并指令: 原始数据集中存在多个指令合并的情况。
空输出: 原始数据集中部分条目输出为空。
空代码示例: 原始数据集中部分描述缺少代码示例。
图像生成指令: 原始数据集中包含无法实现的图像生成指令。
N/A输出: 原始数据集中部分代码片段输出标记为N/A。
输入字段不一致: 原始数据集中输入字段的使用不一致。
错误答案: 原始数据集中约80%的数学问题答案错误。
非逻辑/不清晰指令: 原始数据集中存在不清晰或非逻辑的指令。
多余转义和控制字符: 原始数据集中存在多余转义和控制字符。

数据集结构:

数据字段: instruction, input, output, text
数据实例: 包含指令、可选输入、输出及格式化文本。

数据集创建

数据生成:

使用OpenAI的text-davinci-003引擎生成52,000条指令数据。
基于Self-Instruct框架进行修改，包括使用新的提示模板和简化数据生成流程。

数据集特点:

成本低廉，生成数据成本低于$500。
数据多样性高于Self-Instruct框架发布的数据。

使用注意事项

社会影响:

数据集的发布有助于学术界进行指令遵循语言模型的科学研究，但也存在风险，如可能被不良行为者用于制造有害模型。
已实施内容过滤和输出水印等风险缓解措施。

已知限制:

数据由语言模型生成，可能包含错误或偏见，建议谨慎使用并探索改进方法。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，指令微调数据集对于提升语言模型遵循指令的能力至关重要。Alpaca-Cleaned数据集源于对斯坦福大学发布的原始Alpaca数据集的系统性清洗与优化。原始数据集包含52,000条由OpenAI的text-davinci-003引擎生成的指令与演示数据，其构建借鉴了Self-Instruct框架的数据生成流程，并进行了多项改进，例如采用新的提示词设计、实施更高效的批量解码策略，以及简化数据生成管道。清洗过程则针对原始数据中存在的多种问题，如幻觉指令、合并条目、空输出及错误答案等，进行了细致的识别与修正，旨在提升数据质量与一致性。

特点

该数据集的核心特征在于其经过严格清洗的高质量指令对集合。它有效解决了原始数据中普遍存在的幻觉问题，即移除了那些引用互联网内容而导致模型产生虚构回答的指令。同时，数据集统一了输入字段的格式，修正了不一致的表述，并清理了无意义或模糊的指令。此外，针对数学问题答案错误率高的问题也进行了估计与处理。这些特征使得Alpaca-Cleaned成为一个更为纯净、可靠的指令微调资源，其指令多样性高，且约40%的样本包含上下文输入，为模型训练提供了丰富的任务场景。

使用方法

该数据集主要用于语言模型的指令微调研究与实践。使用者可通过加载其结构化JSON格式数据，直接应用于模型的监督式微调流程。每条数据均包含指令、可选输入、预期输出以及一个格式化后的文本字段，该字段整合了指令、输入与输出，并遵循了特定的提示模板，便于直接用于模型训练。研究人员可利用此数据集训练模型更好地理解和执行自然语言指令，评估其在多样化任务上的泛化能力。鉴于数据由语言模型生成，可能存在残余偏差或错误，建议在使用时保持审慎，并可结合其他技术进行进一步的数据过滤或增强。

背景与挑战

背景概述

在自然语言处理领域，指令微调技术旨在提升语言模型遵循人类指令的能力，成为推动模型实用化的重要方向。2023年，斯坦福大学研究团队发布了Alpaca数据集，该数据集由OpenAI的text-davinci-003引擎生成，包含52,000条指令与演示数据，以低成本实现了指令数据的规模化构建。这一创新性工作基于Self-Instruct框架进行优化，通过简化数据生成流程与采用批量解码策略，显著降低了数据制备的经济开销，为学术社区开展指令跟随模型的科学研究提供了宝贵资源，对促进开源大语言模型的发展产生了深远影响。

当前挑战

Alpaca数据集所针对的核心挑战在于提升语言模型的指令理解与执行能力，其构建过程本身亦面临多重困难。原始数据中广泛存在模型幻觉现象，例如指令引用了网络链接或图片等不可访问内容，导致生成答案缺乏依据。数据合并错误、输出内容缺失、代码示例不完整以及包含图像生成等不可行任务，进一步降低了数据的可用性。此外，输入字段格式不一致、数学问题答案错误率高、指令表述模糊不清以及存在多余转义字符等问题，均对数据质量构成了严峻考验。这些缺陷凸显了利用大语言模型自动生成高质量指令数据时所面临的可靠性与一致性挑战。

常用场景

经典使用场景

在自然语言处理领域，指令微调已成为提升大型语言模型遵循人类指令能力的关键技术。Alpaca-Cleaned数据集作为原始Alpaca数据集的净化版本，其经典使用场景在于为研究人员提供高质量、低噪声的指令-响应对，用于训练或微调语言模型。通过消除原始数据中的幻觉、错误答案及不一致格式等问题，该数据集确保了模型在多样化任务上学习到准确且可靠的指令跟随模式，从而在文本生成、问答及分类等任务中展现出更优的泛化性能。

衍生相关工作

围绕Alpaca-Cleaned数据集，学术界衍生出多项经典研究工作。例如，研究人员利用其高质量数据探索指令微调的效率优化，开发出更高效的数据增强与过滤技术。同时，该数据集常被用作基准，评估如LLaMA、Vicuna等开源模型在指令跟随任务上的性能。此外，相关研究还聚焦于数据清洗方法的创新，通过自动检测并修正错误样本，进一步推动指令数据标准化进程，为后续大规模语言模型训练奠定坚实基础。

数据集最近研究