datajuicer/alpaca-cot-zh-refined-by-data-juicer

Name: datajuicer/alpaca-cot-zh-refined-by-data-juicer
Creator: datajuicer
Published: 2023-11-10 13:33:53
License: 暂无描述

Hugging Face2023-11-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/datajuicer/alpaca-cot-zh-refined-by-data-juicer

下载链接

链接失效反馈

官方服务：

资源简介：

Alpaca-CoT -- ZH是一个通过Data-Juicer工具精炼的中文版本Alpaca-CoT数据集，旨在通过移除一些低质量样本提高数据集的质量。该数据集通常用于微调大型语言模型。数据集的样本数量为9,873,214个，保留了原数据集约46.58%的样本。数据精炼过程包括文档去重、字母数字过滤、字符重复过滤、标记词过滤、文本长度过滤和文档Simhash去重等多个步骤。

Alpaca-CoT -- ZH is a refined Chinese version of the Alpaca-CoT dataset, processed using the Data-Juicer tool. It aims to improve dataset quality by removing low-quality samples. This dataset is typically used for fine-tuning large language models. It contains 9,873,214 samples, retaining approximately 46.58% of the samples from the original dataset. The data refinement process includes multiple steps: document deduplication, alphanumeric filtering, character repetition filtering, stopword filtering, text length filtering, and document Simhash deduplication.

提供机构：

datajuicer

原始信息汇总

Alpaca-CoT -- ZH (refined by Data-Juicer)

概述

这是一个由Data-Juicer精炼的中文版Alpaca-CoT数据集。该数据集去除了原始数据集中的一些“不良”样本，以提高数据质量。通常用于微调大型语言模型。

数据集信息

样本数量：9,873,214（保留了原始数据集的约46.58%）

精炼配方

yaml

全局参数

project_name: Data-Juicer-recipes-alpaca-cot-zh dataset_path: /path/to/your/dataset # 数据集目录或文件的路径 export_path: /path/to/your/dataset.jsonl

np: 50 # 用于处理数据集的子进程数量 open_tracer: true

处理流程

一系列处理操作及其参数

process:

document_deduplicator: lowercase: true ignore_non_character: true
alphanumeric_filter: tokenization: false min_ratio: 0.10
character_repetition_filter: rep_len: 10 max_ratio: 0.6
flagged_words_filter: lang: zh tokenization: true use_words_aug: true max_ratio: 0.017
text_length_filter: min_len: 10
document_simhash_deduplicator: tokenization: character window_size: 4 lowercase: true ignore_pattern: p{P} num_blocks: 10 hamming_distance: 8

搜集汇总

数据集介绍

构建方式

本数据集，Alpaca-CoT -- ZH，是由Data-Juicer团队对原始Alpaca-CoT数据集进行精细清洗后的中文版本。团队采用了一系列数据处理流程，包括文本去重、字符过滤、重复字符过滤、敏感词过滤以及文本长度控制等步骤，最终保留了约46.58%的原始数据样本，确保了数据的质量与可用性。

使用方法

用户可通过提供的链接获取数据集的子集进行预览，而完整的数据集可通过指定的路径下载。数据集以JSONL格式存储，便于直接加载和处理。在使用时，用户应当遵循Apache-2.0开源协议，并可以根据具体的应用场景对数据集进行进一步的清洗和格式化处理。

背景与挑战

背景概述

Alpaca-CoT -- ZH (refined by Data-Juicer) 数据集是在原有Alpaca-CoT数据集的基础上，由Data-Juicer团队进行精细清洗和优化后的中文版本。该数据集的创建旨在为大型语言模型提供高质量的训练样本，其核心研究问题是提升语言模型在生成文本方面的准确性和流畅性。自发布以来，该数据集在自然语言处理领域受到了广泛关注，为相关研究提供了有力的数据支撑，对推动中文语言模型的发展具有显著影响力。

当前挑战

该数据集在构建过程中主要面临的挑战包括：如何有效识别并清除原始数据集中的低质量样本，保证数据集的纯净度和可用性；如何在保证数据量的同时，通过精细化的处理流程避免过度过滤导致的信息损失。此外，针对中文语言特点，如何合理设计文本清洗和过滤规则，以及如何高效地处理大规模数据集，也是构建过程中需要克服的技术难题。

常用场景

经典使用场景

在自然语言处理领域，尤其是文本生成任务中，Alpaca-CoT -- ZH（经Data-Juicer优化）数据集因其高质量与精确性而被广泛采用。该数据集主要用于大型语言模型的微调，以提升模型在生成中文文本方面的表现，其经典的运用场景包括但不限于生成连贯、语义丰富的文章段落或对话。

解决学术问题

该数据集解决了学术研究中模型训练数据质量不一的问题。通过筛选原数据集中的不良样本，Alpaca-CoT -- ZH确保了研究者在进行模型训练时所使用的数据集具有更高的可靠性与准确性，这对于减少模型偏差、提高模型泛化能力具有重要意义。

实际应用

实际应用方面，基于该数据集训练的模型可被用于多种场景，如自动写作、智能客服、内容审核等。这些应用场景对于提高中文内容生产的效率与质量，以及提供智能化的用户服务具有显著影响。

数据集最近研究