FT-Data-Ranker

github2023-12-08 更新2024-05-31 收录

下载链接：

https://github.com/yumingfan-0219/FT-Data-ranker-7b

下载链接

链接失效反馈

官方服务：

资源简介：

本项目是在 FT-Data-Ranker：大语言模型微调数据竞赛 - 7B模型赛道中，队伍 CTYUN-AI 的冠军方案。本方案描述了我们如何配置环境、处理数据、训练模型，并在比赛中取得第1名的成绩。

This project represents the winning solution by team CTYUN-AI in the FT-Data-Ranker competition: Fine-Tuning Data for Large Language Models - 7B Model Track. The solution details our approach to environment configuration, data processing, model training, and achieving the top position in the competition.

创建时间：

2023-12-08

原始信息汇总

数据集概述

数据集来源

本数据集是队伍 CTYUN-AI 在 "FT-Data-Ranker：大语言模型微调数据竞赛 - 7B模型赛道" 中的冠军方案的一部分。

数据处理步骤

数据处理：
- 使用 data-juicer 工具处理英文和中文数据集。
- 英文数据集处理使用 bloom-oscar.yaml 和 redpajama-c4-refine.yaml 进行采样。
- 中文数据集处理使用 alpaca-cot-zh-refine.yaml 进行采样。
第一阶段采样：
- 生成 train_bloom-c4.json 文件，中英文配比为0.65。
构建摘要数据：
- 生成 train_bloom-c4-temp.json 和 train_bloom-c4-all-summ.jsonl 文件。
第二阶段采样：
- 生成 train_bloom-c4-qwen14b-1w-summ.json 文件。
模型训练：
- 基于 DeepSpeed 训练脚本进行模型训练。
模型测试：
- 在 80G A100 显卡上测试模型并提交结果。

搜集汇总

数据集介绍

构建方式

FT-Data-Ranker数据集的构建过程采用了多阶段数据处理与模型训练策略。首先，通过data-juicer工具对英文和中文数据集进行预处理，分别使用bloom-oscar.yaml和redpajama-c4-refine.yaml配置文件对英文数据进行采样，而中文数据则采用alpaca-cot-zh-refine.yaml进行处理。随后，通过两阶段采样方法生成训练数据集，并结合摘要数据的构建，最终形成用于模型训练的数据集train_bloom-c4-qwen14b-1w-summ.json。整个构建过程在DeepSpeed框架下完成，确保了数据的高效处理与模型训练的稳定性。

特点

FT-Data-Ranker数据集的特点在于其多语言支持与高质量的数据采样策略。数据集涵盖了英文和中文两种语言，并通过精心设计的采样方法确保了数据的多样性与代表性。此外，数据集还包含了经过摘要处理的文本数据，进一步丰富了数据的语义信息。这些特点使得该数据集特别适用于大语言模型的微调任务，能够有效提升模型在多语言环境下的表现。

使用方法

使用FT-Data-Ranker数据集时，首先需要按照环境配置指南设置相应的运行环境。接着，通过提供的脚本进行数据处理与采样，生成最终的训练数据集。在模型训练阶段，可以使用DeepSpeed框架下的训练脚本对数据集进行训练，并在高性能显卡（如80G A100）上进行模型测试与结果提交。整个使用过程遵循竞赛官方提供的指南，确保了操作的规范性与结果的可复现性。

背景与挑战

背景概述

FT-Data-Ranker数据集是在2023年由阿里云天池平台举办的“FT-Data-Ranker：大语言模型微调数据竞赛”中产生的，主要聚焦于7B模型的微调数据优化。该竞赛由CTYUN-AI团队夺冠，其方案展示了如何通过数据处理、模型训练和测试等步骤，显著提升大语言模型的性能。该数据集的创建旨在解决大语言模型在微调过程中数据质量与多样性不足的问题，为相关领域的研究提供了宝贵的数据资源和优化思路。其影响力不仅体现在竞赛结果上，更为后续的大语言模型研究提供了新的数据驱动方法。

当前挑战

FT-Data-Ranker数据集在构建过程中面临多重挑战。首先，数据处理的复杂性较高，需使用多种工具（如data-juicer）对中英文数据进行精细化采样与清洗，以确保数据质量。其次，数据配比与多样性优化是核心难题，需在训练过程中平衡中英文数据的比例，并构建高质量的摘要数据以增强模型的理解能力。此外，模型训练的计算资源需求极高，需依赖高性能硬件（如80G A100显卡）进行高效训练与测试。这些挑战不仅考验了数据处理与模型优化的技术能力，也对计算资源的配置提出了较高要求。

常用场景

经典使用场景

FT-Data-Ranker数据集在大语言模型微调领域具有广泛的应用，尤其是在7B模型赛道中，该数据集被用于训练和优化大规模语言模型。通过使用data-juicer工具对中英文数据进行处理，并结合DeepSpeed训练脚本，研究人员能够高效地进行模型训练和测试，从而提升模型在自然语言处理任务中的表现。

实际应用

在实际应用中，FT-Data-Ranker数据集被广泛用于智能客服、机器翻译、文本生成等场景。通过该数据集训练的模型能够更准确地理解和生成自然语言，显著提升了这些应用的性能和用户体验。例如，在智能客服系统中，模型能够更快速地理解用户意图并提供精准的回复，极大地提高了服务效率。

衍生相关工作

FT-Data-Ranker数据集衍生了一系列经典的研究工作，特别是在大语言模型微调和优化领域。基于该数据集的研究成果，许多团队开发了新的训练方法和模型架构，进一步推动了自然语言处理技术的发展。例如，一些研究团队利用该数据集提出了更高效的训练策略，显著降低了模型训练的时间和资源消耗。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集