flan-subsets-deduped

Hugging Face2024-08-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/pszemraj/flan-subsets-deduped

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置都有特定的特征和分割。主要特征包括`inputs`和`targets`，数据类型为字符串。数据集已针对`inputs`进行去重处理，并过滤了非英语内容。每个配置的数据量和下载大小不同。

创建时间：

2024-08-05

原始信息汇总

数据集概述

数据集配置

Commercial-Flan-Collection-SNI

特征:
- inputs: 字符串
- targets: 字符串
- user_parent: 字符串
- assistant_parent: 整数64位
- sha256: 字符串
分割:
- train:
  - 字节数: 831464242.212652
  - 样本数: 270970
下载大小: 495528717
数据集大小: 831464242.212652

flan

特征:
- inputs: 字符串
- targets: 字符串
- task: 字符串
- sha256: 字符串
分割:
- train:
  - 字节数: 895686276.9988031
  - 样本数: 633211
下载大小: 552537280
数据集大小: 895686276.9988031

flan-v2

特征:
- inputs: 字符串
- targets: 字符串
- task_name: 字符串
- task_source: 字符串
- template_type: 字符串
- template_idx: 整数64位
- sha256: 字符串
分割:
- train:
  - 字节数: 11345947198.707159
  - 样本数: 4708060
下载大小: 6892653722
数据集大小: 11345947198.707159

niv2_submix_original

特征:
- inputs: 字符串
- targets: 字符串
- task_source: 字符串
- task_name: 字符串
- template_type: 字符串
- sha256: 字符串
分割:
- train:
  - 字节数: 2259110556.8104787
  - 样本数: 849729
下载大小: 1406102153
数据集大小: 2259110556.8104787

t0_submix_original

特征:
- inputs: 字符串
- targets: 字符串
- task_source: 字符串
- task_name: 字符串
- template_type: 字符串
- sha256: 字符串
分割:
- train:
  - 字节数: 771692762.3727111
  - 样本数: 305764
下载大小: 464190712
数据集大小: 771692762.3727111

数据处理

所有配置/子集包含 inputs 和 targets 列。
基于 inputs 列去重。
过滤掉内容少于5个字符的行，且每列至少有1个字符。
对两列应用 clean-text 处理。

去重命令

去重使用以下命令：

sh python -m text_dedup.minhash --path $ds_name --name $dataset_config --split $data_split --cache_dir "./cache" --output $out_dir --column $text_column --ngram 3 --threshold 0.6 --hash_func xxh3 --hash_bits 32 --num_perm 192 --batch_size 50000

搜集汇总

数据集介绍

构建方式

flan-subsets-deduped数据集的构建过程采用了去重和过滤的策略，以确保数据的独特性和质量。首先，数据集通过Minhash算法对`inputs`列进行去重处理，去重过程中使用了3-gram和0.6的相似度阈值。其次，数据集过滤了非英语内容，并且仅保留`inputs`和`targets`列中字符数大于5的样本，同时剔除了任一列字符数少于1的行。最后，对`inputs`和`targets`列应用了`clean-text`处理，以进一步净化文本内容。

特点

flan-subsets-deduped数据集的特点在于其多样性和高质量。数据集包含了多个子集，如`Commercial-Flan-Collection-SNI`、`flan-v2`等，每个子集都具备`inputs`和`targets`两列，分别表示输入文本和目标文本。数据集经过严格的去重和过滤处理，确保了数据的唯一性和语言一致性。此外，数据集还提供了丰富的元信息，如`task_name`、`task_source`等，便于用户进行任务分类和来源追踪。

使用方法

flan-subsets-deduped数据集适用于文本生成任务，特别是基于提示的文本生成。用户可以通过加载不同的子集来适应不同的任务需求，例如`flan-v2`子集适用于多任务学习，而`Commercial-Flan-Collection-SNI`子集则更适合商业场景的应用。数据集的使用方法简单直观，用户可以通过Hugging Face的`datasets`库直接加载所需子集，并利用`inputs`和`targets`列进行模型训练和评估。此外，数据集的去重和过滤处理确保了训练数据的质量，有助于提升模型的生成效果。

背景与挑战

背景概述

flan-subsets-deduped数据集是一个专注于文本生成任务的数据集，旨在为自然语言处理领域的研究提供高质量的文本对数据。该数据集由多个子集组成，包括Commercial-Flan-Collection-SNI、flan、flan-v2等，涵盖了广泛的文本生成任务。数据集的核心研究问题在于如何通过去重和过滤技术，提升数据的质量和多样性，从而为模型训练提供更有效的支持。该数据集的创建时间不详，但其基于FLAN（Fine-tuned LAnguage Net）系列模型的研究背景，表明其与大规模语言模型的微调和优化密切相关。通过提供多样化的任务和模板，flan-subsets-deduped数据集在推动文本生成模型的性能提升方面具有重要影响力。

当前挑战

flan-subsets-deduped数据集在构建过程中面临多重挑战。首先，文本生成任务本身具有高度的复杂性，要求数据集能够涵盖多样化的任务类型和语言表达形式，这对数据收集和标注提出了极高的要求。其次，数据去重是构建过程中的关键挑战之一，如何在保留数据多样性的同时去除重复样本，需要精细的算法设计和计算资源支持。此外，数据过滤过程中需确保文本质量，避免过短或无意义的文本对模型训练产生负面影响。这些挑战不仅体现在数据集的构建过程中，也直接影响了其在文本生成任务中的应用效果，尤其是在模型泛化能力和任务适应性方面。

常用场景

经典使用场景

flan-subsets-deduped数据集在自然语言处理领域中被广泛用于文本生成任务，尤其是文本到文本的生成模型训练。该数据集通过去重和过滤处理，确保了训练数据的多样性和质量，特别适用于需要高质量输入输出对的场景，如机器翻译、文本摘要和问答系统。

解决学术问题

flan-subsets-deduped数据集解决了自然语言处理中数据冗余和质量控制的问题。通过去重和过滤，该数据集减少了重复数据对模型训练的干扰，提升了模型的泛化能力和性能。此外，该数据集还为研究者提供了一个标准化的基准，用于评估和比较不同文本生成模型的优劣。

衍生相关工作

flan-subsets-deduped数据集衍生了许多经典的自然语言处理研究工作。基于该数据集，研究者开发了多种先进的文本生成模型，如基于Transformer的生成模型和预训练语言模型。这些模型在多个文本生成任务中取得了显著的性能提升，推动了自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成