five

flan-subsets-deduped

收藏
Hugging Face2024-08-05 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/pszemraj/flan-subsets-deduped
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置都有特定的特征和分割。主要特征包括`inputs`和`targets`,数据类型为字符串。数据集已针对`inputs`进行去重处理,并过滤了非英语内容。每个配置的数据量和下载大小不同。
创建时间:
2024-08-05
原始信息汇总

数据集概述

数据集配置

Commercial-Flan-Collection-SNI

  • 特征:
    • inputs: 字符串
    • targets: 字符串
    • user_parent: 字符串
    • assistant_parent: 整数64位
    • sha256: 字符串
  • 分割:
    • train:
      • 字节数: 831464242.212652
      • 样本数: 270970
  • 下载大小: 495528717
  • 数据集大小: 831464242.212652

flan

  • 特征:
    • inputs: 字符串
    • targets: 字符串
    • task: 字符串
    • sha256: 字符串
  • 分割:
    • train:
      • 字节数: 895686276.9988031
      • 样本数: 633211
  • 下载大小: 552537280
  • 数据集大小: 895686276.9988031

flan-v2

  • 特征:
    • inputs: 字符串
    • targets: 字符串
    • task_name: 字符串
    • task_source: 字符串
    • template_type: 字符串
    • template_idx: 整数64位
    • sha256: 字符串
  • 分割:
    • train:
      • 字节数: 11345947198.707159
      • 样本数: 4708060
  • 下载大小: 6892653722
  • 数据集大小: 11345947198.707159

niv2_submix_original

  • 特征:
    • inputs: 字符串
    • targets: 字符串
    • task_source: 字符串
    • task_name: 字符串
    • template_type: 字符串
    • sha256: 字符串
  • 分割:
    • train:
      • 字节数: 2259110556.8104787
      • 样本数: 849729
  • 下载大小: 1406102153
  • 数据集大小: 2259110556.8104787

t0_submix_original

  • 特征:
    • inputs: 字符串
    • targets: 字符串
    • task_source: 字符串
    • task_name: 字符串
    • template_type: 字符串
    • sha256: 字符串
  • 分割:
    • train:
      • 字节数: 771692762.3727111
      • 样本数: 305764
  • 下载大小: 464190712
  • 数据集大小: 771692762.3727111

数据处理

  • 所有配置/子集包含 inputstargets 列。
  • 基于 inputs 列去重。
  • 过滤掉内容少于5个字符的行,且每列至少有1个字符。
  • 对两列应用 clean-text 处理。

去重命令

去重使用以下命令:

sh python -m text_dedup.minhash --path $ds_name --name $dataset_config --split $data_split --cache_dir "./cache" --output $out_dir --column $text_column --ngram 3 --threshold 0.6 --hash_func xxh3 --hash_bits 32 --num_perm 192 --batch_size 50000

搜集汇总
数据集介绍
main_image_url
构建方式
flan-subsets-deduped数据集的构建过程采用了去重和过滤的策略,以确保数据的独特性和质量。首先,数据集通过Minhash算法对`inputs`列进行去重处理,去重过程中使用了3-gram和0.6的相似度阈值。其次,数据集过滤了非英语内容,并且仅保留`inputs`和`targets`列中字符数大于5的样本,同时剔除了任一列字符数少于1的行。最后,对`inputs`和`targets`列应用了`clean-text`处理,以进一步净化文本内容。
特点
flan-subsets-deduped数据集的特点在于其多样性和高质量。数据集包含了多个子集,如`Commercial-Flan-Collection-SNI`、`flan-v2`等,每个子集都具备`inputs`和`targets`两列,分别表示输入文本和目标文本。数据集经过严格的去重和过滤处理,确保了数据的唯一性和语言一致性。此外,数据集还提供了丰富的元信息,如`task_name`、`task_source`等,便于用户进行任务分类和来源追踪。
使用方法
flan-subsets-deduped数据集适用于文本生成任务,特别是基于提示的文本生成。用户可以通过加载不同的子集来适应不同的任务需求,例如`flan-v2`子集适用于多任务学习,而`Commercial-Flan-Collection-SNI`子集则更适合商业场景的应用。数据集的使用方法简单直观,用户可以通过Hugging Face的`datasets`库直接加载所需子集,并利用`inputs`和`targets`列进行模型训练和评估。此外,数据集的去重和过滤处理确保了训练数据的质量,有助于提升模型的生成效果。
背景与挑战
背景概述
flan-subsets-deduped数据集是一个专注于文本生成任务的数据集,旨在为自然语言处理领域的研究提供高质量的文本对数据。该数据集由多个子集组成,包括Commercial-Flan-Collection-SNI、flan、flan-v2等,涵盖了广泛的文本生成任务。数据集的核心研究问题在于如何通过去重和过滤技术,提升数据的质量和多样性,从而为模型训练提供更有效的支持。该数据集的创建时间不详,但其基于FLAN(Fine-tuned LAnguage Net)系列模型的研究背景,表明其与大规模语言模型的微调和优化密切相关。通过提供多样化的任务和模板,flan-subsets-deduped数据集在推动文本生成模型的性能提升方面具有重要影响力。
当前挑战
flan-subsets-deduped数据集在构建过程中面临多重挑战。首先,文本生成任务本身具有高度的复杂性,要求数据集能够涵盖多样化的任务类型和语言表达形式,这对数据收集和标注提出了极高的要求。其次,数据去重是构建过程中的关键挑战之一,如何在保留数据多样性的同时去除重复样本,需要精细的算法设计和计算资源支持。此外,数据过滤过程中需确保文本质量,避免过短或无意义的文本对模型训练产生负面影响。这些挑战不仅体现在数据集的构建过程中,也直接影响了其在文本生成任务中的应用效果,尤其是在模型泛化能力和任务适应性方面。
常用场景
经典使用场景
flan-subsets-deduped数据集在自然语言处理领域中被广泛用于文本生成任务,尤其是文本到文本的生成模型训练。该数据集通过去重和过滤处理,确保了训练数据的多样性和质量,特别适用于需要高质量输入输出对的场景,如机器翻译、文本摘要和问答系统。
解决学术问题
flan-subsets-deduped数据集解决了自然语言处理中数据冗余和质量控制的问题。通过去重和过滤,该数据集减少了重复数据对模型训练的干扰,提升了模型的泛化能力和性能。此外,该数据集还为研究者提供了一个标准化的基准,用于评估和比较不同文本生成模型的优劣。
衍生相关工作
flan-subsets-deduped数据集衍生了许多经典的自然语言处理研究工作。基于该数据集,研究者开发了多种先进的文本生成模型,如基于Transformer的生成模型和预训练语言模型。这些模型在多个文本生成任务中取得了显著的性能提升,推动了自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作