datasets_en.jsonl
收藏数据集概述
数据集名称
Tianchi_FT-Data_Ranker
数据集来源
本数据集来源于 FT-Data Ranker:大语言模型微调数据竞赛 -- 1B模型赛道,为该比赛的第二名方案。
数据处理
Data Juicer 处理
数据集通过 data-juicer 进行了多步骤的处理,包括:
- 使用
data-juicer/configs/data_juicer_recipes/alpaca_cot/alpaca-cot-en-refine.yaml作为 baseline 进行初步处理。 - 设计
keyword_mapper筛选并替换无意义的多语种样本。 - 引入
error_filter过滤质量过低的样本。 - 使用
clean_links_mapper, fix_unicode_mapper, whitespace_normalization_mapper, punctuation_normalization_mapper提高数据质量。 - 添加
words_num_filter确保样本至少包含 300 个单词。 - 设计
output_text_length_filter确保output字段至少包含 10 个文本长度。 - 调整
perplexity_filter的max_ppl为 1000,以利于模型学习。 - 加入
token_num_filter设置样本的max_num为 1300,筛选有效样本。 - 增加
text_len_selector保证数据样本在每个长度区间都有一定量的数据,增强数据多样性。
采样处理
数据集仅采样英文数据,以符合赛道评测要求。
数据集结构
训练完毕后,数据集的文件夹结构如下:
checkpoints/run_all_3sigma_v4_en_2023-11-11-17-37-38 ├── added_tokens.json ├── config.json ├── configuration_falcon.py ├── data │ ├── en │ │ ├── all_3sigma_v4_20231111171400.yaml │ │ ├── datasets_en.jsonl │ │ ├── datasets_en_stats.jsonl │ │ ├── log │ │ │ └── 20231111173743.txt │ │ └── trace │ │ ├── ... │ │ └── mapper-whitespace_normalization_mapper.jsonl │ └── training_dataset.jsonl ├── deepspeed_train_1b.sh ├── generation_config.json ├── merges.txt ├── modeling_falcon.py ├── process_data_only.sh ├── pytorch_model.bin ├── special_tokens_map.json ├── tokenizer_config.json ├── trainer_state.json ├── training_args.bin ├── training_log.txt └── vocab.json
其中,data 文件夹包含处理和采样完之后的数据以及 data-juicer 的 trace 文件。datasets_en.jsonl 表示经过 data-juicer 处理完之后的数据,training_dataset.jsonl 表示采样 3M tokens 之后的数据。




