firefly-pretrain-dataset

Name: firefly-pretrain-dataset
Creator: maas
Published: 2026-05-22 21:08:34
License: 暂无描述

魔搭社区2026-05-22 更新2024-05-15 收录

下载链接：

https://modelscope.cn/datasets/YeungNLP/firefly-pretrain-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

# Firefly中文Llama2增量预训练数据 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/firefly_logo.png" width="250"> 欢迎加入Firefly大模型技术交流群，关注我们的公众号。 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/gongzhonghao.png" width="300"> ## 数据简介技术文章：[QLoRA增量预训练与指令微调，及汉化Llama2的实践](https://mp.weixin.qq.com/s/26-Qxma9M2wGoTQgOlKRmQ) 该数据应为[Firefly-LLaMA2-Chinese项目](https://github.com/yangjianxin1/Firefly-LLaMA2-Chinese)的增量预训练数据，一共约22GB文本，主要包含CLUE、ThucNews、CNews、COIG、维基百科等开源数据集，以及我们收集的古诗词、散文、文言文等，数据分布如下图。 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/pretrain-data.png" width="450"> ## 模型列表 & 数据列表我们开源了7B和13B的Base与Chat模型。Base模型是基于LLaMA2扩充中文词表后增量预训练得到的模型，Chat模型是在Base模型的基础上进行多轮对话指令微调。为了探究基座模型对指令微调的影响，我们也微调了baichuan2-base模型，获得firefly-baichuan2-13b，具有不错的效果。更多中文微调，可查看[Firefly项目](https://github.com/yangjianxin1/Firefly)。 | 模型 | 类型 | 训练任务 | 训练长度 | |-----------------------------------------------------------------------------------------------|------|--------|------| | 🤗[Firefly-LLaMA2-7B-Base](https://modelscope.cn/models/YeungNLP/firefly-llama2-7b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-13B-Base](https://modelscope.cn/models/YeungNLP/firefly-llama2-13b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-7B-Chat](https://modelscope.cn/models/YeungNLP/firefly-llama2-7b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-LLaMA2-13B-Chat](https://modelscope.cn/models/YeungNLP/firefly-llama2-13b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-Baichuan2-13B](https://modelscope.cn/models/YeungNLP/firefly-baichuan2-13b) | 指令模型 | 多轮指令微调 | 1024 | ## 模型评测我们在CMMLU和Open LLM Leaderboard上分别对模型的中文和英文能力进行了客观评测，并且在我们构建的人工评测集上进行了人工评测。 **Open LLM Leaderboard和CMMLU榜单倾向于评测大模型的做题能力，不够全面，所以我们进一步进行了人工评测。** ### Open LLM Leaderboard | 模型 | Average | ARC | HellaSwag | MMLU | TruthfulQA | |-----------------------------|-----------|-------|-----------|-------|------------| | chinese-alpaca-2-13b | 60.94 | 58.7 | 79.74 | 55.1 | 50.22 | | openbuddy-llama2-13b-v8.1 | 60.47 | 55.97 | 79.79 | 54.95 | 51.16 | | flagalpha-llama2-13b-chat | 60.41 | 55.97 | 82.05 | 54.74 | 48.9 | | llama-2-13b-chat | 59.93 | 59.04 | 81.94 | 54.64 | 44.12 | | vicuna-13b-v1.1 | 59.22 | 52.73 | 80.13 | 51.94 | 52.08 | | guanaco-13b | 59.18 | 57.85 | 83.84 | 48.28 | 46.73 | | **firefly-llama2-13b-chat** | **59.05** | 57.51 | 77.94 | 52.56 | 48.18 | | llama-2-7b-chat | 56.34 | 52.9 | 78.55 | 48.32 | 45.57 | | flagalpha-llama2-7b-chat | 56.13 | 52.39 | 77.52 | 47.72 | 46.87 | | yayi-7b-llama2 | 54.45 | 55.03 | 77.84 | 40.92 | 44.02 | | chinese-alpaca-2-7b | 54.33 | 49.57 | 72.62 | 46.5 | 48.63 | | **firefly-llama2-7b-chat** | **54.19** | 51.19 | 73.32 | 45.47 | 46.78 | | yayi-13b-llama2 | 51.06 | 48.55 | 74.82 | 38.68 | 42.19 | | linly-llama2-7b | 49.06 | 48.04 | 73.25 | 35.04 | 39.92 | | linly-llama2-13b | 38.22 | 33.62 | 39.59 | 33.97 | 45.71 | | ziya-llama-13b* | - | - | 76.9 | 50.3 | - | *表示分数来源于OpenCompass官方，而非Open LLM Leaderboard官方数据 Conclusion：我们的模型保留了llama2模型优秀的英文能力，在Open LLM Leaderboard上，与llama2-chat、vicuna-v1.1、guanaco等模型的表现及其接近。 ### CMMLU榜单 | 模型 | CMMLU | 训练细节 | |-----------------------------|-----------|------------------------| | **firefly-baichuan2-13b** | **56.83** | 4\*V100，QLoRA，指令微调 | | chinese-alpaca-2-13b | 45.17 | 48\*A40，LoRA，词表扩充 + 增量预训练 + 指令微调 | | openbuddy-llama2-13b-v8.1 | 41.66 | 全量参数训练，词表扩充 + 指令微调 | | chinese-alpaca-2-7b | 40.86 | 48\*A40，LoRA，词表扩充 + 增量预训练 + 指令微调 | | ziya-llama-13b* | 39.9 | 160\*A100，全量参数训练，词表扩充 + 增量预训练 + 指令微调 + RLHF | | chinese-alpaca-plus-13b* | 39.9 | 48\*A40，LoRA，词表扩充 + 增量预训练 + 指令微调 | | **firefly-llama2-13b-chat** | **39.47** | 4\*V100，QLoRA，词表扩充 + 增量预训练 + 指令微调 | | flagalpha-llama2-13b-chat | 39.20 | LoRA，指令微调 | | llama-2-13b-chat | 38.65 | 全量参数训练，预训练 + 指令微调 + RLHF(全流程为英文) | | **firefly-llama2-7b-chat** | **34.03** | 4\*V100，QLoRA，词表扩充 + 增量预训练 + 指令微调 | | llama-2-7b-chat | 33.76 | 全量参数训练，预训练 + 指令微调 + RLHF(全流程为英文) | | flagalpha-llama2-7b-chat | 32.61 | LoRA，指令微调 | | chinese-alpaca-plus-7b* | 32.6 | 48\*A40，LoRA，词表扩充 + 增量预训练 + 指令微调 | | yayi-13b-llama2 | 30.73 | 指令微调 | | yayi-7b-llama2 | 30.47 | 指令微调 | | linly-llama2-7b | 28.68 | 32\*A100，全量参数训练，词表扩充 + 混合训练 | | linly-llama2-13b | 26.32 | 32\*A100，全量参数训练，词表扩充 + 混合训练 | 我们统一采用OpenCompass工具来离线评测CMMLU，其中*表示结果来源于OpenCompass官方榜单或者由模型作者自测的分数。 Conclusions: - 与llama-2-chat相比，我们的模型在中文方面的能力具有一定的提升。 - 对于中文词表扩充模型而言，我们的模型大幅领先全量训练的linly，与全量训练的ziya、chinese-alpaca-1及其接近。 - firefly-baichuan2-13b一骑绝尘，并且在OpenCompass的CMMLU榜单，该分数可排第8，小幅落后于百川官方模型，进一步验证了基座模型的重要性。 - 我们的模型在CMMLU上的指标与chinese-alpaca-2也存在一定的差距。这一现象很大程度与增量预训练数据量和数据分布相关，我们的增量预训练数据仅为22GB(未充分使用，详情见训练细节)，增量预训练不够充分，且大部分为新闻语料，对于CMMLU能力的提升有限。 ### 人工评测我们构建了评测集，其中包含13种评测任务，评测数据详见data/firefly-eval.xlsx。大部分数据从[Belle数据](https://huggingface.co/datasets/BELLE-2/train_3.5M_CN_With_Category)中进行采样和优化。每种任务包含10条数据，一共130条数据。13种任务包含：头脑风暴、分类、Close QA、代码生成、信息抽取、开放式生成、有害性检验、数学题、阅读理解、Open QA、Rewrite、Summarization、翻译。评测标准如下： - 对于同一道题目，对两两模型的生成结果进行比较，存在胜负平三种关系。 - 对于客观题，如果两个模型均回答正确，或均回答错误，则为平局。 - 对于主观题，回答更加详细、真实、细节更丰富，则为获胜。当两者内容正确，并且详细程度非常接近时，或者各有千秋时，可视为平局。 - 对于中文题目，如果目标回复为中文，但模型却回复英文，则判为错误。详细的评测结果可参考：[人工评测结果](https://docs.qq.com/sheet/DU1h1bE1xWG50ZVlI?tab=BB08J2)。在评测中，我们遵守设定的评测标准，但依旧难以完全避免主观因素的影响，本着公开透明的原则，我们公开了评测细节，大家可比较模型效果。同为基于LLaMA2进行汉化的模型，我们对Firefly-LLaMA2-13B-Chat和Linly-LLaMA2-13B进行了人工测评，从评测结果来看，我们的模型存在非常大的优势。并且我们与Llama2-Chat-13B也进行了人工评测，也存在非常大的优势。 | 模型 | 获胜 | 平局 | 失败 | |---------------------------------------------|------|------------|----------| | Firefly-LLaMA2-13B-Chat VS Linly-LLaMA2-13B | **43(33.08%)** | 79(60.77%) | 8(6.15%) | | Firefly-LLaMA2-13B-Chat VS Llama2-Chat-13B | **86(66.15%)** | 40(30.77%) | 4(3.08%) |

# Firefly中文Llama2增量预训练数据 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/firefly_logo.png" width="250"> 欢迎加入Firefly大语言模型（Large Language Model）技术交流群，关注我们的公众号。 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/gongzhonghao.png" width="300"> ## 数据简介技术文章：[QLoRA（Quantized Low-Rank Adaptation）增量预训练与指令微调，及汉化Llama2的实践](https://mp.weixin.qq.com/s/26-Qxma9M2wGoTQgOlKRmQ) 该数据为[Firefly-LLaMA2-Chinese项目](https://github.com/yangjianxin1/Firefly-LLaMA2-Chinese)的增量预训练数据集，总文本量约22GB，主要涵盖CLUE、ThucNews、CNews、COIG等开源数据集，以及团队采集的古诗词、散文、文言文等文本，数据分布如下图。 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/pretrain-data.png" width="450"> ## 模型列表 & 数据列表我们开源了7B与13B规格的基座（Base）与对话（Chat）模型。基座模型基于LLaMA2扩充中文词表后通过增量预训练得到，对话模型则在基座模型基础上完成多轮对话指令微调。为探究基座模型对指令微调的影响，团队还对baichuan2-base模型进行微调，得到firefly-baichuan2-13b，效果表现优异。更多中文微调相关内容，可查阅[Firefly项目](https://github.com/yangjianxin1/Firefly)。 | 模型 | 类型 | 训练任务 | 训练长度 | |-----------------------------------------------------------------------------------------------|------|--------|------| | 🤗[Firefly-LLaMA2-7B-Base](https://modelscope.cn/models/YeungNLP/firefly-llama2-7b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-13B-Base](https://modelscope.cn/models/YeungNLP/firefly-llama2-13b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-7B-Chat](https://modelscope.cn/models/YeungNLP/firefly-llama2-7b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-LLaMA2-13B-Chat](https://modelscope.cn/models/YeungNLP/firefly-llama2-13b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-Baichuan2-13B](https://modelscope.cn/models/YeungNLP/firefly-baichuan2-13b) | 指令模型 | 多轮指令微调 | 1024 | ## 模型评测我们分别在CMMLU与Open LLM Leaderboard上对模型的中英文能力进行客观评测，并基于团队构建的人工评测集开展人工评测。**Open LLM Leaderboard与CMMLU榜单更侧重评测大语言模型的应试能力，覆盖维度不够全面，因此我们进一步补充了人工评测。** ### Open LLM Leaderboard | 模型 | Average | ARC | HellaSwag | MMLU | TruthfulQA | |-----------------------------|-----------|-------|-----------|-------|------------| | chinese-alpaca-2-13b | 60.94 | 58.7 | 79.74 | 55.1 | 50.22 | | openbuddy-llama2-13b-v8.1 | 60.47 | 55.97 | 79.79 | 54.95 | 51.16 | | flagalpha-llama2-13b-chat | 60.41 | 55.97 | 82.05 | 54.74 | 48.9 | | llama-2-13b-chat | 59.93 | 59.04 | 81.94 | 54.64 | 44.12 | | vicuna-13b-v1.1 | 59.22 | 52.73 | 80.13 | 51.94 | 52.08 | | guanaco-13b | 59.18 | 57.85 | 83.84 | 48.28 | 46.73 | | **firefly-llama2-13b-chat** | **59.05** | 57.51 | 77.94 | 52.56 | 48.18 | | llama-2-7b-chat | 56.34 | 52.9 | 78.55 | 48.32 | 45.57 | | flagalpha-llama2-7b-chat | 56.13 | 52.39 | 77.52 | 47.72 | 46.87 | | yayi-7b-llama2 | 54.45 | 55.03 | 77.84 | 40.92 | 44.02 | | chinese-alpaca-2-7b | 54.33 | 49.57 | 72.62 | 46.5 | 48.63 | | **firefly-llama2-7b-chat** | **54.19** | 51.19 | 73.32 | 45.47 | 46.78 | | yayi-13b-llama2 | 51.06 | 48.55 | 74.82 | 38.68 | 42.19 | | linly-llama2-7b | 49.06 | 48.04 | 73.25 | 35.04 | 39.92 | | linly-llama2-13b | 38.22 | 33.62 | 39.59 | 33.97 | 45.71 | | ziya-llama-13b* | - | - | 76.9 | 50.3 | - | *表示分数来源于OpenCompass官方榜单，而非Open LLM Leaderboard官方数据 **结论**：本团队模型保留了LLaMA2优秀的英文能力，在Open LLM Leaderboard上的表现与llama2-chat、vicuna-v1.1、guanaco等模型极为接近。 ### CMMLU榜单 | 模型 | CMMLU | 训练细节 | |-----------------------------|-----------|------------------------| | **firefly-baichuan2-13b** | **56.83** | 4*V100，QLoRA，指令微调 | | chinese-alpaca-2-13b | 45.17 | 48*A40，LoRA，词表扩充 + 增量预训练 + 指令微调 | | openbuddy-llama2-13b-v8.1 | 41.66 | 全量参数训练，词表扩充 + 指令微调 | | chinese-alpaca-2-7b | 40.86 | 48*A40，LoRA，词表扩充 + 增量预训练 + 指令微调 | | ziya-llama-13b* | 39.9 | 160*A100，全量参数训练，词表扩充 + 增量预训练 + 指令微调 + RLHF | | chinese-alpaca-plus-13b* | 39.9 | 48*A40，LoRA，词表扩充 + 增量预训练 + 指令微调 | | **firefly-llama2-13b-chat** | **39.47** | 4*V100，QLoRA，词表扩充 + 增量预训练 + 指令微调 | | flagalpha-llama2-13b-chat | 39.20 | LoRA，指令微调 | | llama-2-13b-chat | 38.65 | 全量参数训练，预训练 + 指令微调 + RLHF(全流程为英文) | | **firefly-llama2-7b-chat** | **34.03** | 4*V100，QLoRA，词表扩充 + 增量预训练 + 指令微调 | | llama-2-7b-chat | 33.76 | 全量参数训练，预训练 + 指令微调 + RLHF(全流程为英文) | | flagalpha-llama2-7b-chat | 32.61 | LoRA，指令微调 | | chinese-alpaca-plus-7b* | 32.6 | 48*A40，LoRA，词表扩充 + 增量预训练 + 指令微调 | | yayi-13b-llama2 | 30.73 | 指令微调 | | yayi-7b-llama2 | 30.47 | 指令微调 | | linly-llama2-7b | 28.68 | 32*A100，全量参数训练，词表扩充 + 混合训练 | | linly-llama2-13b | 26.32 | 32*A100，全量参数训练，词表扩充 + 混合训练 | 我们统一采用OpenCompass工具离线评测CMMLU，其中*表示结果来源于OpenCompass官方榜单或模型作者自测分数。 **结论**： - 相较于llama-2-chat，本团队模型的中文能力有一定提升。 - 针对中文词表扩充类模型，本团队模型大幅领先全量训练的linly，与全量训练的ziya、chinese-alpaca-1等模型表现接近。 - firefly-baichuan2-13b表现突出，在OpenCompass的CMMLU榜单中排名第8，小幅落后于百川官方模型，进一步验证了基座模型的重要性。 - 本团队模型在CMMLU上的指标与chinese-alpaca-2存在一定差距，这一现象主要与增量预训练的数据量和数据分布相关：本次增量预训练数据仅为22GB（未充分使用，详见训练细节），增量预训练不够充分，且多数为新闻语料，对CMMLU能力的提升有限。 ### 人工评测我们构建了包含13类评测任务的评测集，评测数据详见`data/firefly-eval.xlsx`，其中大部分数据从[Belle数据集](https://huggingface.co/datasets/BELLE-2/train_3.5M_CN_With_Category)中采样优化而来。每类任务包含10条数据，总计130条样本。13类任务分别为：头脑风暴、分类、Close QA、代码生成、信息抽取、开放式生成、有害性检验、数学题、阅读理解、Open QA、Rewrite、Summarization、翻译。评测标准如下： - 针对同一题目，对两个模型的生成结果进行比较，分为胜、平、负三种关系。 - 针对客观题，若两个模型均回答正确或均回答错误，则判定为平局。 - 针对主观题，回答更详细、真实且细节更丰富的模型获胜；若两者内容正确且详细程度相近，或各有优劣，则视为平局。 - 针对中文题目，若目标回复为中文但模型输出英文，则判定为错误。详细评测结果可查阅：[人工评测结果](https://docs.qq.com/sheet/DU1h1bE1xWG50ZVlI?tab=BB08J2)。本次评测虽遵循既定标准，但仍难以完全规避主观因素影响，本着公开透明的原则，我们公开了全部评测细节，供大家对比模型效果。作为基于LLaMA2汉化的模型，我们对Firefly-LLaMA2-13B-Chat与Linly-LLaMA2-13B开展了人工测评，结果显示本团队模型具备显著优势；同时我们也与Llama2-Chat-13B进行了人工评测，同样体现出较大优势。 | 模型 | 获胜 | 平局 | 失败 | |---------------------------------------------|------|------------|----------| | Firefly-LLaMA2-13B-Chat VS Linly-LLaMA2-13B | **43(33.08%)** | 79(60.77%) | 8(6.15%) | | Firefly-LLaMA2-13B-Chat VS Llama2-Chat-13B | **86(66.15%)** | 40(30.77%) | 4(3.08%) |

提供机构：

maas

创建时间：

2023-10-24

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是Firefly-LLaMA2-Chinese项目的增量预训练数据，总大小约22GB，主要包含CLUE、ThucNews、CNews、COIG、维基百科等开源数据集以及古诗词、散文、文言文等中文语料，用于训练基座模型和指令模型以提升中文处理能力。数据集在模型评测中表现出色，尤其在中文任务上相比其他模型有优势，但增量预训练数据量有限且以新闻语料为主，可能影响某些评测指标。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集