FLAN-compressed

Hugging Face2024-09-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BEE-spoke-data/FLAN-compressed

下载链接

链接失效反馈

官方服务：

资源简介：

FLAN的压缩版本，通过去重减少了数据量，删除了涉及翻译任务的行，包含两个配置：'all'和'default'，'default'配置中包含了40个最常见的任务。

创建时间：

2024-09-26

原始信息汇总

FLAN: compressed

概述

语言: 英语 (en)
许可证: CC BY 4.0
数据集大小: 100M<n<1B
任务类别: 文本生成 (text2text-generation)

数据集配置

配置: all

特征:
- inputs: string
- targets: string
- _task_name: string
分割:
- train:
  - num_bytes: 361134866848.2417
  - num_examples: 221466547
下载大小: 222738262858
数据集大小: 361134866848.2417

配置: default

特征:
- inputs: string
- targets: string
- _task_name: string
分割:
- train:
  - num_bytes: 189807091650.35074
  - num_examples: 116399509
下载大小: 153206338553
数据集大小: 189807091650.35074

数据文件

配置: all
- train: all/train-*
配置: default
- train: data/train-*

其他信息

压缩版本: 基于FLAN数据集的压缩版本，从378M行减少到116M行。
去重方式: 仅基于inputs字段进行minhash去重。
任务过滤: 删除了所有提及翻译任务的行（可在all配置中找到这些行）。

搜集汇总

数据集介绍

构建方式

FLAN-compressed数据集是通过对原始FLAN数据集进行去重处理构建而成。具体而言，该数据集采用了minhash算法对输入文本（`inputs`）进行去重，从而将原始数据集的378M行压缩至116M行。此外，所有涉及翻译任务的样本（通过`_task_name`字段标识）均被剔除，以确保数据集的精简性和针对性。

特点

FLAN-compressed数据集的特点在于其高度去重后的精简结构，涵盖了多种自然语言处理任务，如文本生成、情感分析、问答等。数据集中的每个样本均包含输入文本（`inputs`）、目标文本（`targets`）以及任务名称（`_task_name`），便于用户快速定位和使用。此外，数据集中还包含了大量来自Gigaword、Amazon Polarity等知名数据集的样本，确保了数据的多样性和代表性。

使用方法

FLAN-compressed数据集的使用方法较为灵活，用户可根据需求选择不同的配置（如`all`或`default`）进行加载。通过Hugging Face平台，用户可以直接下载数据集并利用其进行文本生成、任务分类等自然语言处理任务的训练和评估。数据集的样本结构清晰，输入与目标文本的对应关系明确，便于用户快速构建模型训练流程。

背景与挑战

背景概述

FLAN-compressed数据集是基于FLAN数据集的一个高度去重版本，旨在优化大规模文本生成任务的效率。FLAN数据集由OpenAI等机构开发，主要用于文本到文本生成任务，涵盖了广泛的自然语言处理任务。FLAN-compressed通过Minhash算法对输入文本进行去重，显著减少了数据量，从原始的378M行压缩至116M行。该数据集的创建时间为2023年，其核心研究问题在于如何在不损失任务多样性的前提下，高效处理大规模文本数据，从而为模型训练提供更紧凑且高质量的数据支持。FLAN-compressed的发布对自然语言处理领域的研究具有重要意义，尤其是在提升模型训练效率和资源利用率方面。

当前挑战

FLAN-compressed数据集在构建和应用过程中面临多重挑战。首先，数据去重过程中需要平衡数据压缩率与任务多样性之间的关系，确保去重后的数据集仍能覆盖广泛的任务类型。其次，由于去重操作主要基于输入文本，可能导致某些任务（如翻译任务）被过度过滤，从而影响数据集的全面性。此外，数据集的规模仍然庞大，尽管经过压缩，但其存储和计算资源需求依然较高，这对研究者的硬件条件提出了较高要求。最后，如何评估去重对模型性能的影响也是一个重要挑战，需要设计合理的实验验证去重后的数据集是否仍能支持高质量的模型训练。

常用场景

经典使用场景

FLAN-compressed数据集广泛应用于自然语言处理领域，特别是在文本生成任务中。该数据集通过去重和压缩技术，显著减少了数据冗余，使得模型训练更加高效。研究人员可以利用该数据集进行文本到文本的生成任务，如摘要生成、问答系统和情感分析等。

解决学术问题

FLAN-compressed数据集解决了大规模文本数据冗余和存储效率低下的问题。通过去重和压缩，该数据集不仅减少了存储空间的需求，还提高了模型训练的效率。此外，该数据集还解决了多任务学习中的数据不平衡问题，为研究人员提供了一个更加均衡和多样化的训练环境。

衍生相关工作

FLAN-compressed数据集衍生了许多经典的自然语言处理研究工作。例如，基于该数据集的研究成果被应用于改进BERT、GPT等预训练语言模型的性能。此外，该数据集还推动了多任务学习领域的发展，研究人员通过该数据集探索了如何在不同任务之间共享知识，从而提升模型的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集