ErfanMoosaviMonazzah/alpaca-plus
收藏Hugging Face2024-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ErfanMoosaviMonazzah/alpaca-plus
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- text-generation
- text2text-generation
language:
- en
tags:
- instruction-finetuning
- alpaca
- text generation
pretty_name: Alpaca Plus
size_categories:
- 10K<n<100K
---
# Dataset Card for [Alpaca Plus](https://huggingface.co/datasets/ErfanMoosaviMonazzah/alpaca-plus)
Alpaca Plus is an enhanced version of the [yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned) dataset, which is a cleaned version of the [tatsu-lab/alpaca](https://huggingface.co/datasets/tatsu-lab/alpaca) dataset. This progression signifies an enhancement in the quality and usability of the data.
<br>In the process of creating Alpaca Plus, nearly **97% of instructions** were classified into **593 unique instruction types**. This classification provides a more granular understanding of the dataset and enhances its potential for various applications.
## Dataset Details
Apart from `question_wh` and `question_yn`, which store instructions that are either WH-questions or yes/no questions respectively, all other types focus solely on one type of instruction. In case of question_wh or question_yn you can use corresponding value of instruction_keyword columns of the dataset to see the exact word.
<br>Below is a list of instruction types that contain more than 100 instructions (unk represent unclassified instructions):<br>
| Instruction Type | Frequency |
|------------------|-------|
| generate | 4837 |
| create | 3785 |
| question_wh | 3763 |
| describe | 2989 |
| write | 2891 |
| explain | 2111 |
| name | 1982 |
| identify | 1662 |
| unk | 1634 |
| find | 1480 |
| rewrite | 1382 |
| suggest | 1150 |
| list | 1137 |
| classify | 1002 |
| provide | 999 |
| give | 952 |
| summarize | 803 |
| construct | 779 |
| edit | 721 |
| come | 708 |
| design | 696 |
| compare | 654 |
| compose | 583 |
| analyze | 553 |
| make | 531 |
| convert | 480 |
| categorize | 474 |
| calculate | 431 |
| determine | 398 |
| tell | 391 |
| add | 286 |
| develop | 275 |
| question_yn | 267 |
| change | 246 |
| take | 217 |
| select | 216 |
| translate | 206 |
| evaluate | 191 |
| imagine | 188 |
| brainstorm | 184 |
| choose | 173 |
| arrange | 169 |
| predict | 168 |
| rearrange | 168 |
| output | 164 |
| outline | 163 |
| sort | 138 |
| read | 137 |
| replace | 137 |
| reword | 127 |
| formulate | 124 |
| complete | 118 |
| paraphrase | 117 |
| propose | 114 |
| answer | 105 |
| transform | 105 |
| pick | 101 |
任务类别:
- 文本生成(text-generation)
- 文本到文本生成(text2text-generation)
语言:
- 英语
标签:
- 指令微调(instruction-finetuning)
- Alpaca
- 文本生成
展示名称:Alpaca Plus
规模类别:
- 1万 < 样本量 < 10万
# 数据集卡片:[Alpaca Plus](https://huggingface.co/datasets/ErfanMoosaviMonazzah/alpaca-plus)
Alpaca Plus 是[yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned) 数据集的增强版本,而后者又是[tatsu-lab/alpaca](https://huggingface.co/datasets/tatsu-lab/alpaca) 数据集的清洗版本。这一迭代升级显著提升了数据集的质量与可用性。
在构建Alpaca Plus的过程中,近**97%的指令**被归类至**593种独特的指令类型**。该分类机制能够更细致地解析数据集的构成,拓展其在多类任务场景中的应用潜力。
## 数据集详情
除`question_wh`和`question_yn`分别存储WH-疑问句与是非疑问句外,其余所有指令类型均仅对应单一指令类别。若需查看`question_wh`或`question_yn`类别的具体指令词,可调用数据集中`instruction_keyword`列的对应取值。
以下为指令样本量超过100的指令类型列表(其中`unk`代表未分类指令):
| 指令类型 | 频次 |
|------------------|-------|
| 生成 | 4837 |
| 创建 | 3785 |
| WH-疑问类 | 3763 |
| 描述 | 2989 |
| 撰写 | 2891 |
| 解释 | 2111 |
| 命名 | 1982 |
| 识别 | 1662 |
| 未分类 | 1634 |
| 查找 | 1480 |
| 重写 | 1382 |
| 建议 | 1150 |
| 列举 | 1137 |
| 分类 | 1002 |
| 提供 | 999 |
| 给出 | 952 |
| 总结 | 803 |
| 构建 | 779 |
| 编辑 | 721 |
| 构思 | 708 |
| 设计 | 696 |
| 比较 | 654 |
| 创作 | 583 |
| 分析 | 553 |
| 制作 | 531 |
| 转换 | 480 |
| 归类 | 474 |
| 计算 | 431 |
| 确定 | 398 |
| 告知 | 391 |
| 添加 | 286 |
| 开发 | 275 |
| 是非疑问类 | 267 |
| 更改 | 246 |
| 获取 | 217 |
| 选择 | 216 |
| 翻译 | 206 |
| 评估 | 191 |
| 想象 | 188 |
| 头脑风暴 | 184 |
| 挑选 | 173 |
| 整理 | 169 |
| 预测 | 168 |
| 重新排列 | 168 |
| 输出 | 164 |
| 大纲 | 163 |
| 排序 | 138 |
| 读取 | 137 |
| 替换 | 137 |
| 措辞改写 | 127 |
| 制定 | 124 |
| 完成 | 118 |
| 释义 | 117 |
| 提议 | 114 |
| 回答 | 105 |
| 转换 | 105 |
| 选取 | 101 |
提供机构:
ErfanMoosaviMonazzah
原始信息汇总
数据集卡片 for Alpaca Plus
数据集详情
任务类别
- 文本生成
- 文本到文本生成
语言
- 英语
标签
- 指令微调
- alpaca
- 文本生成
数据集大小类别
- 10K<n<100K
数据集详细信息
Alpaca Plus 是 yahma/alpaca-cleaned 数据集的增强版本,后者是 tatsu-lab/alpaca 数据集的清理版本。在创建 Alpaca Plus 的过程中,近 97% 的指令 被分类为 593 种独特的指令类型。这种分类提供了对数据集更细粒度的理解,并增强了其在各种应用中的潜力。
除了存储 WH-问题或是非问题的 question_wh 和 question_yn 之外,所有其他类型都仅关注一种指令。对于 question_wh 或 question_yn,可以使用数据集中 instruction_keyword 列的相应值来查看确切的单词。
以下是包含超过 100 条指令的指令类型列表(unk 表示未分类的指令):
| 指令类型 | 频率 |
|---|---|
| generate | 4837 |
| create | 3785 |
| question_wh | 3763 |
| describe | 2989 |
| write | 2891 |
| explain | 2111 |
| name | 1982 |
| identify | 1662 |
| unk | 1634 |
| find | 1480 |
| rewrite | 1382 |
| suggest | 1150 |
| list | 1137 |
| classify | 1002 |
| provide | 999 |
| give | 952 |
| summarize | 803 |
| construct | 779 |
| edit | 721 |
| come | 708 |
| design | 696 |
| compare | 654 |
| compose | 583 |
| analyze | 553 |
| make | 531 |
| convert | 480 |
| categorize | 474 |
| calculate | 431 |
| determine | 398 |
| tell | 391 |
| add | 286 |
| develop | 275 |
| question_yn | 267 |
| change | 246 |
| take | 217 |
| select | 216 |
| translate | 206 |
| evaluate | 191 |
| imagine | 188 |
| brainstorm | 184 |
| choose | 173 |
| arrange | 169 |
| predict | 168 |
| rearrange | 168 |
| output | 164 |
| outline | 163 |
| sort | 138 |
| read | 137 |
| replace | 137 |
| reword | 127 |
| formulate | 124 |
| complete | 118 |
| paraphrase | 117 |
| propose | 114 |
| answer | 105 |
| transform | 105 |
| pick | 101 |
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,指令微调数据集对于提升模型遵循人类指令的能力至关重要。Alpaca Plus数据集基于yahma/alpaca-cleaned版本进行构建,后者本身是对原始tatsu-lab/alpaca数据集的清洗与优化。构建过程中,研究者对近97%的指令进行了细致的分类,将其归纳为593种独特的指令类型,如“生成”、“创建”、“描述”等。这一分类工作不仅增强了数据集的内部结构,还通过引入instruction_keyword等列,为每条指令提供了更精确的语义标注,从而显著提升了数据的组织化程度与可用性。
特点
该数据集的核心特征在于其精细的指令分类体系与规模适中的体量。它涵盖了从开放式生成到具体问答的广泛指令类型,其中“generate”、“create”和“question_wh”等类型指令数量尤为丰富,分别达到数千条。这种多样性确保了模型能够接触到多种语言任务模式。同时,数据集规模控制在10K到100K之间,既保证了足够的训练样本,又避免了过度冗余。独特的分类标签如question_wh和question_yn进一步区分了疑问句的细分类别,为研究指令的语义结构提供了宝贵资源。
使用方法
在应用层面,Alpaca Plus数据集主要用于文本生成与文本到文本生成任务的模型微调。使用者可通过Hugging Face平台直接加载该数据集,并依据instruction_keyword列筛选特定类型的指令进行针对性训练。例如,专注于问答任务的研究者可提取question_wh或question_yn类别的数据。数据集的结构化设计便于分割训练集与验证集,支持模型在遵循多样化指令方面的性能评估与优化。其清晰的分类体系也有助于分析模型在不同指令类型上的表现差异,推动指令跟随技术的深入发展。
背景与挑战
背景概述
在自然语言处理领域,指令微调数据集对于提升大型语言模型遵循人类指令的能力至关重要。Alpaca Plus数据集由ErfanMoosaviMonazzah于2023年构建,作为tatsu-lab/alpaca数据集的增强版本,其核心研究聚焦于通过精细化的指令分类优化模型训练。该数据集将约97%的指令划分为593种独特类型,为研究者提供了更结构化的数据基础,显著推动了指令跟随模型在文本生成与文本转换任务中的性能演进,对促进对话系统与智能助手的实用化发展产生了深远影响。
当前挑战
Alpaca Plus数据集旨在应对指令微调中模型泛化能力不足的核心挑战,即如何使模型准确理解并执行多样且复杂的自然语言指令。在构建过程中,挑战主要体现在对原始指令进行高效清洗与分类,需克服语义模糊性及类别重叠问题,以确保数据质量与一致性。同时,平衡各类指令的分布以避免训练偏差,并维护数据规模的实用性,亦是构建过程中的关键难点。
常用场景
经典使用场景
在自然语言处理领域,指令微调已成为提升模型遵循人类意图能力的关键技术。Alpaca Plus数据集凭借其精细分类的593种指令类型,为研究者提供了丰富的训练资源,尤其适用于文本生成与文本到文本转换任务。该数据集通过涵盖生成、创建、描述、解释等多种指令,使模型能够学习如何准确理解并执行复杂的人类指令,从而在对话系统、内容创作等场景中展现出卓越的适应性。
解决学术问题
Alpaca Plus数据集主要解决了指令跟随模型中存在的指令理解泛化性不足与响应质量参差不齐的学术难题。通过提供大量经过清洗和分类的指令-响应对,该数据集促进了模型在少样本或零样本设置下的性能提升,降低了过拟合风险。其意义在于推动了开放域指令微调研究的发展,为构建更可靠、可控的大型语言模型奠定了数据基础,对人工智能对齐与安全领域产生了深远影响。
衍生相关工作
围绕Alpaca Plus数据集,学术界衍生了一系列经典研究工作,主要集中在指令优化、模型蒸馏与多任务学习方向。例如,部分研究利用其分类体系探索指令类型对模型性能的差异化影响,进而设计更高效的微调策略。此外,该数据集也常作为基准,用于评估新提出的指令跟随算法在泛化性和鲁棒性方面的表现,推动了如Alpaca-LoRA等轻量级适配技术的发展。
以上内容由遇见数据集搜集并总结生成



