en_refine.jsonl, zh_refine.jsonl, 30m_0615_refine.jsonl

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/colfeng/comp_FT_DATA_Ranker

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集包括仅含英文的10m token数据集、仅含中文的10m token数据集以及含中英双语的30m token数据集，英文占比为0.615。这些数据集用于竞赛中的数据采样、筛选和模型训练。

These datasets consist of an English-only 10-million-token dataset, a Chinese-only 10-million-token dataset, and a 30-million-token bilingual English-Chinese dataset, where the proportion of English tokens is 0.615. These datasets are utilized for data sampling, filtering and model training in competitions.

创建时间：

2023-11-21

原始信息汇总

数据集概述

数据集来源与用途

本数据集是针对FT-Data-Ranker 7B赛道构建的，用于竞赛中的数据筛选和模型训练。

数据集组成

初始数据采样

10m_en_refine.jsonl：仅含英文的10m token的数据集。
10m_zh_refine.jsonl：仅含中文的10m token的数据集。
30m_0615_refine.jsonl：含中英双语的30m token的数据集，英文占比为0.615。

数据筛选结果

10m_en_entropy.jsonl：筛选后的英文数据集。
10m_zh_entropy.jsonl：筛选后的中文数据集。
10m_05_entropy.jsonl：再次采样后的中英文混合数据集，中英文数据比例为0.5。

数据处理流程

指导模型训练

使用30m_0615_refine.jsonl数据集训练得到指导模型30m_0615_baichuan。

数据筛选

3.1 原模型与指导模型entropy计算

使用Lobassv1.py计算10m_en_refine.jsonl和10m_zh_refine.jsonl中数据在原始baichuan2-7b模型和30m_0615_baichuan模型上的entropy。

3.2 数据筛选

使用LB_after.py对10m_en_refine.jsonl和10m_zh_refine.jsonl进行筛选，保留指导模型上entropy小于原始模型上entropy的数据。

3.3 数据再采样

使用get_train_dataset_7b.py工具对筛选后的数据进行再次采样，得到10m_05_entropy.jsonl。

最终模型训练

使用10m_05_entropy.jsonl数据集训练得到最终模型10m_05_entropy_baichuan。

参考文献

搜集汇总

数据集介绍

构建方式

该数据集的构建基于FT-Data-Ranker 7B赛道的竞赛要求，通过多阶段的数据处理和模型训练完成。首先，从原始数据中提取并改良出英文和中文的初步数据集en_refine.jsonl和zh_refine.jsonl。随后，利用这些数据进行多次采样，生成不同规模的数据集，如10m_en_refine.jsonl和10m_zh_refine.jsonl。接着，使用30m_0615_refine.jsonl数据集训练一个指导模型，该模型用于计算数据在训练前后的entropy变化，以筛选出模型能够有效学习的数据。最后，根据entropy变化筛选出的数据再次采样，形成最终的训练数据集10m_05_entropy.jsonl。

使用方法

使用该数据集时，首先需要准备相应的计算环境，包括安装必要的软件和库。接着，利用提供的脚本和工具，如get_train_dataset_7b.py和Lobassv1.py，进行数据的采样和entropy计算。然后，根据计算出的entropy变化，使用LB_after.py脚本筛选出有效数据。最后，使用筛选后的数据集10m_05_entropy.jsonl进行模型的训练，通过train_scripts/deepspeed_train_7b_lora.sh脚本完成训练过程。整个使用流程旨在通过高质量的数据集提升模型的训练效果和泛化能力。

背景与挑战

背景概述

en_refine.jsonl、zh_refine.jsonl和30m_0615_refine.jsonl数据集是为FT-Data-Ranker 7B赛道构建的，旨在通过数据筛选和模型训练优化自然语言处理任务的性能。该数据集由DiMiner团队开发，并在竞赛中取得了显著成绩。其核心研究问题在于如何通过熵值计算和数据筛选，提升模型在特定条件下的学习能力。这一研究不仅推动了大规模语言模型在数据选择上的创新，也为相关领域提供了新的技术思路。

当前挑战

该数据集在构建过程中面临多重挑战。首先，数据筛选的准确性依赖于指导模型的表现，而指导模型的训练需要大量计算资源和时间。其次，熵值计算作为筛选标准，其有效性依赖于原始模型与指导模型之间的差异，如何确保这一差异能够准确反映数据的学习潜力是一个复杂的问题。此外，中英文数据的平衡采样也对数据集的构建提出了更高的要求，如何在有限的token数内实现语言比例的精确控制，是另一个亟待解决的难题。

常用场景

经典使用场景

在自然语言处理领域，en_refine.jsonl和zh_refine.jsonl数据集常用于训练和优化多语言模型。通过结合中英文数据，这些数据集能够帮助模型更好地理解和生成双语文本，尤其是在机器翻译、文本生成和跨语言信息检索等任务中表现出色。30m_0615_refine.jsonl数据集则进一步扩展了数据规模，提供了更丰富的训练样本，适用于需要大规模数据支持的深度学习模型训练。

解决学术问题

这些数据集通过引入entropy计算和LoBaSS假设，解决了模型在训练过程中数据筛选的难题。传统的训练方法往往依赖于随机采样或简单的过滤规则，而该数据集通过指导模型计算entropy变化，筛选出模型能够有效学习的数据，显著提升了模型的训练效率和性能。这一方法不仅优化了数据选择过程，还为模型的可解释性和学习能力提供了新的研究视角。

实际应用

在实际应用中，en_refine.jsonl和zh_refine.jsonl数据集被广泛应用于智能客服、多语言搜索引擎和自动翻译系统等领域。通过训练基于这些数据集的模型，企业能够实现更精准的跨语言沟通和信息处理，提升用户体验。30m_0615_refine.jsonl数据集则进一步支持了大规模语言模型的开发，为人工智能驱动的多语言应用提供了坚实的数据基础。

数据集最近研究