IndustryCorpus2

github2025-02-17 更新2025-02-18 收录

下载链接：

https://github.com/qiufengqijun/mini_qwen

下载链接

链接失效反馈

官方服务：

资源简介：

30类行业分类的高质量预训练数据集

A high-quality pre-training dataset for 30-category industry classification

创建时间：

2025-01-18

原始信息汇总

mini_qwen 是一个从头开始训练的 1B 参数的大型语言模型 (LLM) 项目，包括预训练 (PT)、微调 (SFT) 和直接偏好优化 (DPO) 三个部分。该项目基于 Qwen2.5-0.5B-Instruct 模型，通过扩充模型隐藏状态层数、隐藏状态维度和注意力头数，增加参数量到 1B，并进行参数随机初始化。训练数据使用北京智源人工智能研究院的预训练 (16B token)、微调 (9M 条) 和偏好数据 (60K 条)，使用 flash_attention_2 进行加速，使用 deepspeed 在 6 张 H800 上训练 25h(pt 1epoch)、43h(sft 3epoch)、1h(dpo 3epoch)。

数据集介绍

预训练数据

使用 IndustryCorpus2 30类行业分类的高质量预训练数据集，选择 10 个行业-中英文-高质量数据，实际使用数据量约为 16B token。

微调数据

使用 Infinity-Instruct 数据集的基础数据集和聊天数据集，选择基础数据集中的 7M 和聊天数据集中的 Gen 混合作为微调数据，实际使用数据量约 9M 条样例。

偏好数据

使用 Infinity-Preference 数据集的训练数据集和测试数据集混合作为偏好数据集，实际使用数据量约 60K 条样例。

训练流程

预训练 (pt)

使用 Trainer 进行训练，参考 LLaMA-Factory，对数据进行序列打包 (sequences packing)，使用 Accelerate 和 deepspeed 进行分布式训练，使用 flash_attention_2 进行加速，设置序列长度为 1024。

微调 (sft)

使用 TRL 中的 SFTTrainer 进行训练，使用 Accelerate 和 deepspeed 进行分布式训练，使用 flash_attention_2 进行加速，设置序列长度为 1024，对于多轮对话数据，仅训练第一轮对话数据。

直接偏好优化 (dpo)

使用 TRL 中的 DPOTrainer 进行训练，使用 Accelerate 和 deepspeed 进行分布式训练，使用 flash_attention_2 进行加速，设置序列长度为 1024。

结果分析与模型评估

预训练 (pt)

预训练使用大约 16B token 的高质量中英文数据，训练了 1epoch，总 batch_size 为 1152，学习率为 1e-4，使用 6 张 H800，deepspeed 采用 zero-2，耗时约 25h。loss 曲线先迅速下降，后缓慢降低，非常符合预期。

微调 (sft)

微调基于 pt 1epoch 模型，使用大约 9M 条高质量中英文数据，训练了 3epoch，总 batch_size 为 1152，学习率为 1e-5，使用 6 张 H800，deepspeed 采用 zero-2，耗时约 43h。loss 曲线先迅速下降，后缓慢降低，非常符合预期。

模型评估

在模型评估阶段，设置了 2 种模式的 prompt，可以用来测试预训练、微调和直接偏好优化模型的差异。

搜集汇总

数据集介绍

构建方式

IndustryCorpus2数据集是一个由北京智源人工智能研究院构建的30类行业分类的高质量预训练数据集。该数据集按照行业、中英文、数据质量进行分层，为模型训练提供了丰富的文本资源。数据集的构建过程中，选取了10个行业的中英文高质量数据，其中部分行业由于数据量过大，仅选取了部分文件进行训练。最终实际使用数据量约为16B token。

特点

IndustryCorpus2数据集的特点在于其行业分类的精细程度，以及中英文数据的结合。数据集包含了30个行业的中英文高质量数据，为模型训练提供了多样化的文本内容。此外，数据集的规模庞大，为模型的深度学习和知识注入提供了充足的数据基础。

使用方法

使用IndustryCorpus2数据集时，首先需要下载数据集和模型配置文件。数据集的下载可以通过项目提供的prepare.sh脚本进行。下载完成后，可以使用Trainer进行预训练、微调和直接偏好优化。预训练阶段，调整模型参数至1B，使用Trainer进行训练，并参考LLaMA-Factory，对数据进行序列打包(sequences packing)，使用Accelerate和deepspeed进行分布式训练，使用flash_attention_2进行加速，设置序列长度为1024。微调阶段，使用TRL中的SFTTrainer进行训练，使用Accelerate和deepspeed进行分布式训练，使用flash_attention_2进行加速，设置序列长度为1024，对于多轮对话数据，仅训练第一轮对话数据。直接偏好优化阶段，使用TRL中的DPOTrainer进行训练，使用Accelerate和deepspeed进行分布式训练，使用flash_attention_2进行加速，设置序列长度为1024。

背景与挑战

背景概述

IndustryCorpus2数据集是由北京智源人工智能研究院构建的，旨在为大型语言模型提供高质量的预训练数据。该数据集包含了30类行业分类的高质量预训练数据，按照行业、语言和数据处理质量进行了分层。数据集的创建时间为2024年，主要研究人员为北京智源人工智能研究院的团队。IndustryCorpus2数据集的核心研究问题是提高大型语言模型在特定行业领域的理解和生成能力。该数据集对相关领域的影响力主要体现在为大型语言模型的预训练提供了高质量的数据资源，有助于推动相关领域的研究和发展。

当前挑战

IndustryCorpus2数据集面临的主要挑战包括：1)所解决的领域问题的挑战：数据集主要针对特定行业领域，如何在保证数据质量的同时，覆盖更广泛的行业领域是一个挑战；2)构建过程中所遇到的挑战：数据集的构建过程中，如何保证数据的准确性和一致性是一个挑战。此外，由于数据集规模庞大，如何在有限的计算资源下进行有效的数据清洗和预处理也是一个挑战。

常用场景

经典使用场景

IndustryCorpus2数据集是用于预训练大型语言模型的重要资源，特别是在中英文混合数据上进行模型训练。该数据集覆盖了30类行业分类，提供了高质量的中英文文本数据，这对于构建能够理解和生成行业相关文本的模型至关重要。此外，该数据集也支持微调和直接偏好优化等后续训练阶段，有助于提升模型的对话生成能力和用户偏好学习。

衍生相关工作

IndustryCorpus2数据集的发布推动了相关领域的研究。基于该数据集，研究人员可以探索如何更好地训练和评估行业相关的语言模型，以及如何将模型应用于实际场景中。此外，该数据集也为其他研究人员提供了宝贵的资源和参考，促进了自然语言处理领域的发展。

数据集最近研究