five

datasets_en.jsonl

收藏
github2023-12-06 更新2024-05-31 收录
下载链接:
https://github.com/PommesPeter/Tianchi_FT-Data_Ranker
下载链接
链接失效反馈
官方服务:
资源简介:
经过 data-juicer 处理完之后的数据,用于大语言模型微调数据竞赛。

The data processed by data-juicer is intended for use in fine-tuning competitions for large language models.
创建时间:
2023-10-31
原始信息汇总

数据集概述

数据集名称

Tianchi_FT-Data_Ranker

数据集来源

本数据集来源于 FT-Data Ranker:大语言模型微调数据竞赛 -- 1B模型赛道,为该比赛的第二名方案。

数据处理

Data Juicer 处理

数据集通过 data-juicer 进行了多步骤的处理,包括:

  • 使用 data-juicer/configs/data_juicer_recipes/alpaca_cot/alpaca-cot-en-refine.yaml 作为 baseline 进行初步处理。
  • 设计 keyword_mapper 筛选并替换无意义的多语种样本。
  • 引入 error_filter 过滤质量过低的样本。
  • 使用 clean_links_mapper, fix_unicode_mapper, whitespace_normalization_mapper, punctuation_normalization_mapper 提高数据质量。
  • 添加 words_num_filter 确保样本至少包含 300 个单词。
  • 设计 output_text_length_filter 确保 output 字段至少包含 10 个文本长度。
  • 调整 perplexity_filtermax_ppl 为 1000,以利于模型学习。
  • 加入 token_num_filter 设置样本的 max_num 为 1300,筛选有效样本。
  • 增加 text_len_selector 保证数据样本在每个长度区间都有一定量的数据,增强数据多样性。

采样处理

数据集仅采样英文数据,以符合赛道评测要求。

数据集结构

训练完毕后,数据集的文件夹结构如下:

checkpoints/run_all_3sigma_v4_en_2023-11-11-17-37-38 ├── added_tokens.json ├── config.json ├── configuration_falcon.py ├── data │ ├── en │ │ ├── all_3sigma_v4_20231111171400.yaml │ │ ├── datasets_en.jsonl │ │ ├── datasets_en_stats.jsonl │ │ ├── log │ │ │ └── 20231111173743.txt │ │ └── trace │ │ ├── ... │ │ └── mapper-whitespace_normalization_mapper.jsonl │ └── training_dataset.jsonl ├── deepspeed_train_1b.sh ├── generation_config.json ├── merges.txt ├── modeling_falcon.py ├── process_data_only.sh ├── pytorch_model.bin ├── special_tokens_map.json ├── tokenizer_config.json ├── trainer_state.json ├── training_args.bin ├── training_log.txt └── vocab.json

其中,data 文件夹包含处理和采样完之后的数据以及 data-juicer 的 trace 文件。datasets_en.jsonl 表示经过 data-juicer 处理完之后的数据,training_dataset.jsonl 表示采样 3M tokens 之后的数据。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建过程主要依托于Data Juicer工具,通过对原始数据进行多层次的清洗和优化。首先,基于Alpaca-CoT数据集的配置作为基准,对数据进行初步处理。随后,针对数据集中存在的多语种混合问题,设计了关键词映射器(keyword_mapper)来筛选并替换无意义的多语种样本。此外,通过引入多种过滤器(如error_filter、words_num_filter等)和映射器(如clean_links_mapper、fix_unicode_mapper等),进一步提升了数据的质量和一致性。最后,通过token_num_filter和text_len_selector等工具,确保数据的多样性和有效性。
使用方法
该数据集的使用方法相对简便,主要通过运行提供的脚本文件`run_aio.sh`进行训练。用户需在运行前创建必要的文件夹并修改脚本中的相关变量,如设备ID、配置文件名称和实验名称等。运行脚本后,系统会自动进行数据处理和模型训练,最终生成训练完毕的模型和数据文件夹。用户可根据需要进一步调整和优化训练参数,以获得更好的模型性能。
背景与挑战
背景概述
数据集 `datasets_en.jsonl` 是作为天池平台举办的 FT-Data Ranker 大语言模型微调数据竞赛的一部分而创建的,主要用于支持大语言模型的微调任务。该数据集由阿里云天池平台组织,旨在通过高质量的数据集提升大语言模型的性能。数据集的核心研究问题在于如何通过数据清洗和优化,提升模型在特定任务上的表现。该数据集在自然语言处理领域具有重要影响力,尤其是在大语言模型的微调和数据优化方面,为相关研究提供了宝贵的数据支持。
当前挑战
数据集 `datasets_en.jsonl` 面临的挑战主要集中在数据质量和多样性上。首先,数据集中存在大量重复样本和格式错误,需要通过复杂的清洗流程进行处理。其次,多语种混合数据可能对模型训练产生干扰,需通过关键词筛选和过滤机制来优化数据。此外,数据集中还存在由于网络爬虫错误导致的低质量样本,需通过特定的过滤规则进行剔除。在构建过程中,如何平衡数据的多样性与质量,确保模型能够从多样化的任务类别中学习,也是一个重要的挑战。最后,数据预处理中的 token 长度限制也对数据筛选提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,`datasets_en.jsonl`数据集常用于大语言模型的微调任务。该数据集通过Data Juicer工具进行预处理,包括去重、格式修正和多语种样本筛选,确保数据质量。其经典使用场景包括训练和评估1B参数规模的语言模型,特别是在多任务学习和跨语言理解方面表现出色。
解决学术问题
该数据集解决了大语言模型训练中常见的数据质量问题,如重复样本、格式错误和多语种混杂问题。通过引入多种过滤器和映射器,显著提升了数据的多样性和质量,从而增强了模型的泛化能力和学习效率。此外,数据集的设计还解决了数据采样中的长度分布问题,确保模型在不同任务上的表现更加均衡。
实际应用
在实际应用中,`datasets_en.jsonl`数据集被广泛用于构建和优化多语言对话系统、文本生成模型以及跨语言信息检索系统。其高质量的数据样本和多样化的任务类别使得模型在实际场景中表现出更强的鲁棒性和适应性,特别是在处理复杂语言任务时,能够显著提升用户体验和系统性能。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLM)的快速发展,数据质量对模型性能的影响愈发显著。datasets_en.jsonl 数据集作为 Tianchi_FT-Data_Ranker 竞赛的核心数据资源,其研究方向主要集中在数据清洗与优化领域。通过对数据集中重复、格式错误及多语种混杂问题的深入分析,研究者采用了 Data Juicer 工具链进行精细化处理,包括关键词替换、错误过滤、文本规范化等操作,以提升数据质量。此外,基于语言模型训练的实际需求,研究还引入了文本长度、困惑度等指标的筛选机制,确保数据多样性与模型学习的有效性。这些研究不仅为大规模语言模型的微调提供了高质量数据支持,也为数据驱动的模型优化开辟了新的路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作