datasets_en.jsonl

github2023-12-06 更新2024-05-31 收录

下载链接：

https://github.com/PommesPeter/Tianchi_FT-Data_Ranker

下载链接

链接失效反馈

官方服务：

资源简介：

经过 data-juicer 处理完之后的数据，用于大语言模型微调数据竞赛。

The data processed by data-juicer is intended for use in fine-tuning competitions for large language models.

创建时间：

2023-10-31

原始信息汇总

数据集概述

数据集名称

Tianchi_FT-Data_Ranker

数据集来源

本数据集来源于 FT-Data Ranker：大语言模型微调数据竞赛 -- 1B模型赛道，为该比赛的第二名方案。

数据处理

Data Juicer 处理

数据集通过 data-juicer 进行了多步骤的处理，包括：

使用 data-juicer/configs/data_juicer_recipes/alpaca_cot/alpaca-cot-en-refine.yaml 作为 baseline 进行初步处理。
设计 keyword_mapper 筛选并替换无意义的多语种样本。
引入 error_filter 过滤质量过低的样本。
使用 clean_links_mapper, fix_unicode_mapper, whitespace_normalization_mapper, punctuation_normalization_mapper 提高数据质量。
添加 words_num_filter 确保样本至少包含 300 个单词。
设计 output_text_length_filter 确保 output 字段至少包含 10 个文本长度。
调整 perplexity_filter 的 max_ppl 为 1000，以利于模型学习。
加入 token_num_filter 设置样本的 max_num 为 1300，筛选有效样本。
增加 text_len_selector 保证数据样本在每个长度区间都有一定量的数据，增强数据多样性。

采样处理

数据集仅采样英文数据，以符合赛道评测要求。

数据集结构

训练完毕后，数据集的文件夹结构如下：

checkpoints/run_all_3sigma_v4_en_2023-11-11-17-37-38 ├── added_tokens.json ├── config.json ├── configuration_falcon.py ├── data │ ├── en │ │ ├── all_3sigma_v4_20231111171400.yaml │ │ ├── datasets_en.jsonl │ │ ├── datasets_en_stats.jsonl │ │ ├── log │ │ │ └── 20231111173743.txt │ │ └── trace │ │ ├── ... │ │ └── mapper-whitespace_normalization_mapper.jsonl │ └── training_dataset.jsonl ├── deepspeed_train_1b.sh ├── generation_config.json ├── merges.txt ├── modeling_falcon.py ├── process_data_only.sh ├── pytorch_model.bin ├── special_tokens_map.json ├── tokenizer_config.json ├── trainer_state.json ├── training_args.bin ├── training_log.txt └── vocab.json

其中，data 文件夹包含处理和采样完之后的数据以及 data-juicer 的 trace 文件。datasets_en.jsonl 表示经过 data-juicer 处理完之后的数据，training_dataset.jsonl 表示采样 3M tokens 之后的数据。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程主要依托于Data Juicer工具，通过对原始数据进行多层次的清洗和优化。首先，基于Alpaca-CoT数据集的配置作为基准，对数据进行初步处理。随后，针对数据集中存在的多语种混合问题，设计了关键词映射器（keyword_mapper）来筛选并替换无意义的多语种样本。此外，通过引入多种过滤器（如error_filter、words_num_filter等）和映射器（如clean_links_mapper、fix_unicode_mapper等），进一步提升了数据的质量和一致性。最后，通过token_num_filter和text_len_selector等工具，确保数据的多样性和有效性。

使用方法

该数据集的使用方法相对简便，主要通过运行提供的脚本文件`run_aio.sh`进行训练。用户需在运行前创建必要的文件夹并修改脚本中的相关变量，如设备ID、配置文件名称和实验名称等。运行脚本后，系统会自动进行数据处理和模型训练，最终生成训练完毕的模型和数据文件夹。用户可根据需要进一步调整和优化训练参数，以获得更好的模型性能。

背景与挑战

背景概述

数据集 `datasets_en.jsonl` 是作为天池平台举办的 FT-Data Ranker 大语言模型微调数据竞赛的一部分而创建的，主要用于支持大语言模型的微调任务。该数据集由阿里云天池平台组织，旨在通过高质量的数据集提升大语言模型的性能。数据集的核心研究问题在于如何通过数据清洗和优化，提升模型在特定任务上的表现。该数据集在自然语言处理领域具有重要影响力，尤其是在大语言模型的微调和数据优化方面，为相关研究提供了宝贵的数据支持。

当前挑战

数据集 `datasets_en.jsonl` 面临的挑战主要集中在数据质量和多样性上。首先，数据集中存在大量重复样本和格式错误，需要通过复杂的清洗流程进行处理。其次，多语种混合数据可能对模型训练产生干扰，需通过关键词筛选和过滤机制来优化数据。此外，数据集中还存在由于网络爬虫错误导致的低质量样本，需通过特定的过滤规则进行剔除。在构建过程中，如何平衡数据的多样性与质量，确保模型能够从多样化的任务类别中学习，也是一个重要的挑战。最后，数据预处理中的 token 长度限制也对数据筛选提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，`datasets_en.jsonl`数据集常用于大语言模型的微调任务。该数据集通过Data Juicer工具进行预处理，包括去重、格式修正和多语种样本筛选，确保数据质量。其经典使用场景包括训练和评估1B参数规模的语言模型，特别是在多任务学习和跨语言理解方面表现出色。

解决学术问题

该数据集解决了大语言模型训练中常见的数据质量问题，如重复样本、格式错误和多语种混杂问题。通过引入多种过滤器和映射器，显著提升了数据的多样性和质量，从而增强了模型的泛化能力和学习效率。此外，数据集的设计还解决了数据采样中的长度分布问题，确保模型在不同任务上的表现更加均衡。

实际应用

在实际应用中，`datasets_en.jsonl`数据集被广泛用于构建和优化多语言对话系统、文本生成模型以及跨语言信息检索系统。其高质量的数据样本和多样化的任务类别使得模型在实际场景中表现出更强的鲁棒性和适应性，特别是在处理复杂语言任务时，能够显著提升用户体验和系统性能。

数据集最近研究