declare-lab/flan-mini

Hugging Face2023-07-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/declare-lab/flan-mini

下载链接

链接失效反馈

资源简介：

Flan-mini数据集是从Flan Collection中精心挑选的子集，旨在保持任务多样性的同时减少数据集的总大小。该数据集通过添加现有的代码数据集（如CodeContests、APPS和CodeSearchNet）进行了增强。数据集的每个样本都经过随机增强，使用了手工制作的提示模板，并可能作为零样本示例或与少量示例组合使用。此外，数据集还整合了多种ChatGPT数据集，包括Alpaca、Code Alpaca和ShareGPT。

The Flan-mini dataset is a carefully curated subset sourced from the Flan Collection, designed to reduce the total dataset size while preserving task diversity. This dataset is augmented by incorporating existing code datasets such as CodeContests, APPS, and CodeSearchNet. Each sample in the dataset is randomly augmented with handcrafted prompt templates, and can be used either as a zero-shot example or combined with few-shot examples. Additionally, the dataset integrates multiple ChatGPT-related datasets including Alpaca, Code Alpaca, and ShareGPT.

提供机构：

declare-lab

原始信息汇总

数据集概述

数据集名称

Flan-mini

数据集特征

id: 字符串类型
source: 字符串类型
conversations: 列表类型

数据集分割

train: 包含1,340,153个样本

许可证

数据集大小

1M<n<10M

数据集内容

包含多个子数据集，总大小为1.34M。
主要子数据集包括：
- Flan2021: 388K
- Public Pool of Prompts: 320K
- Natural instructions v2: 200K
- CoT: 100K
- Code Search: 100K
- Code Contest: 50K
- Apps: 50K
- GPT4-Alpaca: 52K
- Code-Alpaca: 20K
- ShareGPT: 60K

数据集用途

用于Flan Fine-Tuning，增强问题解决能力。

数据集来源

部分数据集来自Flan Collection，部分通过添加现有代码数据集（如CodeContests, APPS, CodeSearchNet）进行增强。
包含多种ChatGPT数据集，如Alpaca, Code Alpaca, ShareGPT。

数据处理

每个数据集的样本数量固定，样本通过手工制作的提示模板随机增强，可用作零样本示例或与少量演示组合。

搜集汇总

数据集介绍

构建方式

Flan-mini数据集的构建是在Flan Collection的基础上，通过精心选择子集以保持任务多样性同时减少数据集规模。该数据集整合了代码竞赛、应用程序和代码搜索网络等现有代码数据集，并采用Flan Collection的数据处理流程，从每个数据集中采样固定数量的示例，并使用不同的提示模板进行随机增强，形成可用于零样本或少样本演示的例子。

使用方法

使用Flan-mini数据集时，研究者可以依据数据集中的不同任务类型，进行相应的模型训练和评估。数据集提供的示例经过精心处理，适用于零样本学习以及少量样本学习场景，有助于研究者评估模型在自然指令理解和代码生成任务上的表现。用户可以通过访问指定的存储库和 leaderboard 获取更多使用指南和性能基准。

背景与挑战

背景概述

Flan-mini数据集是在大型Flan Collection基础上，为了维持任务多样性同时减小数据集规模而精心选取的子集。该数据集由declare-lab团队创建于2023年，其研究背景源于对多样化任务处理能力的提升，以及代码数据集的融合应用。主要研究人员包括Deepanway Ghosal、Yew Ken Chia、Navonil Majumder和Soujanya Poria。该数据集在自然语言处理领域具有重要的研究价值，特别是在指令微调、代码生成和对话系统等领域。其研究问题核心在于如何利用FLAN微调技术，提升模型在零样本或少样本情况下的任务解决能力。Flan-mini的构建，对相关领域产生了显著影响，推动了自然语言处理技术在实际问题中的应用。

当前挑战

Flan-mini数据集面临的挑战主要包括：1)如何确保在子集选择过程中任务多样性的保持，以适应不同的应用场景；2)融合不同来源的数据集时，如何有效处理数据异质性和不一致性问题；3)在构建过程中，如何实现高效的数据增强策略，以提升模型在零样本或少样本学习任务中的表现。此外，数据集构建者还需克服公开Flan Collection中缺乏编程任务的限制，通过整合现有代码数据集来丰富数据集内容。

常用场景

经典使用场景

在自然语言处理与机器学习领域，declare-lab/flan-mini数据集以其独特的任务多样性和精确的数据采样，成为了研究零样本与少样本学习的经典资源。该数据集通过结合多种编程与自然语言任务，为模型训练提供了丰富的语境和挑战，使得研究者在指令微调、代码生成等场景中得以开展深入研究。

解决学术问题

该数据集解决了学术研究中如何有效利用大规模数据集进行高效学习的问题。通过集成多样化的任务和精心设计的提示模板，declare-lab/flan-mini促进了模型在零样本或少样本条件下的泛化能力研究，为理解模型如何从有限的数据中学习提供了新的视角，对于提升机器学习模型的智能水平具有重要意义。

实际应用

在实际应用中，declare-lab/flan-mini数据集可被用于增强机器学习模型在代码生成、智能编程助手、自动化软件测试等领域的表现。其丰富的任务类型和多样的数据来源，使得模型能够更好地适应真实世界中的复杂场景，满足现代软件开发对智能化工具的高要求。

数据集最近研究