dedup-text-dataset

github2024-04-25 更新2024-05-31 收录

下载链接：

https://github.com/malaysia-ai/dedup-text-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于文本数据集的去重和后处理。数据集来源于https://github.com/users/huseinzol05/projects/1，处理后的数据集上传至https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset。

本流程用于文本数据集的去重与后处理。该数据集的原始来源为https://github.com/users/huseinzol05/projects/1，处理后的数据集已上传至https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset。

创建时间：

2023-08-15

原始信息汇总

数据集概述

数据集名称

dedup-text-dataset

数据集来源

数据集经过去重和后处理，原始数据收集自 https://github.com/users/huseinzol05/projects/1。
去重和后处理后的数据集上传至 https://huggingface.co/datasets/malaysia-ai/dedup-text-dataset。

数据集处理

去重处理：使用 remove-duplicate-text-dataset.ipynb 进行去重，该笔记本利用 text_dedup 工具，该工具借自 https://github.com/ChenghaoMou/text-dedup。
后处理：通过 postprocessing.ipynb 进行后处理，包括移除包含HTTP错误的文本、移除少于3个字符的文本、替换6个或更多连续空格或点。

数据集存储

原始数据集存储于 hf-datasets/raw-datasets。
去重后的数据集存储于 hf-datasets/dedupe-datasets。

数据集使用

数据集用于准备训练会话，包括多个预训练模型和过滤器。
数据集处理过程中未考虑AI对齐和安全性，仅应用基本后过滤。

搜集汇总

数据集介绍

构建方式

dedup-text-dataset数据集的构建过程始于从GitHub项目中收集原始文本数据，随后通过一系列预处理步骤进行清洗和去重。具体而言，数据集的构建包括从多个来源下载原始数据，如通过wget命令直接下载或通过Jupyter Notebook进行预处理。去重操作利用了text_dedup工具，该工具能够有效识别并移除重复文本，确保数据集的唯一性。最后，通过postprocessing.ipynb脚本进行后处理，包括去除HTTP错误文本、过滤短文本以及标准化特定字符，从而生成最终的预训练数据集。

使用方法

dedup-text-dataset数据集的使用方法相对直接，用户可以通过下载链接获取预处理后的数据集文件。对于需要进一步处理或定制的用户，可以参考提供的Jupyter Notebook脚本进行数据预处理和去重操作。此外，数据集还配套了一个Python库，用户可以通过该库实现端到端的文本清洗和处理。数据集适用于多种预训练任务，如FPF llama2、FPF Mistral等模型的训练，为研究者提供了丰富的资源以优化其自然语言处理模型的性能。

背景与挑战

背景概述

dedup-text-dataset是由马来西亚AI研究团队创建的一个预训练文本数据集，旨在为自然语言处理（NLP）领域的研究提供高质量的文本资源。该数据集的构建始于对多个公开可用文本资源的收集与整合，主要研究人员或机构包括Husein Zolkepli及其团队。数据集的核心研究问题是如何有效地去除重复文本并进行后处理，以确保数据的质量和多样性。该数据集的发布对NLP领域的模型预训练具有重要意义，特别是在提升模型泛化能力和减少数据噪声方面。

当前挑战

dedup-text-dataset在构建过程中面临的主要挑战包括：首先，文本去重过程对计算资源要求极高，尤其是在处理大规模数据时，内存消耗可能迅速达到30GB以上。其次，数据预处理阶段需要处理多种复杂的文本格式和错误，如HTTP错误和过短文本的过滤。此外，数据集的构建未考虑AI对齐和安全性问题，仅进行了基础的后过滤处理，这可能影响数据集在某些特定应用场景中的适用性。

常用场景

经典使用场景

dedup-text-dataset数据集在自然语言处理领域中，主要用于大规模文本数据的预训练任务。其经典使用场景包括构建语言模型、文本生成以及文本分类等任务。通过去重和后处理，该数据集能够有效减少数据冗余，提升模型训练的效率和准确性。

解决学术问题

该数据集解决了自然语言处理中常见的数据冗余问题，通过去重技术，减少了训练数据的噪声，提升了模型的泛化能力。这对于构建高效、准确的语言模型具有重要意义，尤其是在大规模预训练模型中，去重处理显著提高了数据质量和模型性能。

实际应用

在实际应用中，dedup-text-dataset数据集被广泛用于构建和优化各种自然语言处理模型，如文本生成、机器翻译、情感分析等。通过减少数据冗余，该数据集能够显著提升模型的训练速度和预测精度，从而在实际应用中提供更高质量的文本处理服务。

数据集最近研究