five

firefly-pretrain-dataset

收藏
魔搭社区2026-05-22 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/YeungNLP/firefly-pretrain-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
# Firefly中文Llama2增量预训练数据 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/firefly_logo.png" width="250"> 欢迎加入Firefly大模型技术交流群,关注我们的公众号。 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/gongzhonghao.png" width="300"> ## 数据简介 技术文章:[QLoRA增量预训练与指令微调,及汉化Llama2的实践](https://mp.weixin.qq.com/s/26-Qxma9M2wGoTQgOlKRmQ) 该数据应为[Firefly-LLaMA2-Chinese项目](https://github.com/yangjianxin1/Firefly-LLaMA2-Chinese)的增量预训练数据,一共约22GB文本,主要包含CLUE、ThucNews、CNews、COIG、维基百科等开源数据集,以及我们收集的古诗词、散文、文言文等,数据分布如下图。 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/pretrain-data.png" width="450"> ## 模型列表 & 数据列表 我们开源了7B和13B的Base与Chat模型。Base模型是基于LLaMA2扩充中文词表后增量预训练得到的模型,Chat模型是在Base模型的基础上进行多轮对话指令微调。 为了探究基座模型对指令微调的影响,我们也微调了baichuan2-base模型,获得firefly-baichuan2-13b,具有不错的效果。更多中文微调,可查看[Firefly项目](https://github.com/yangjianxin1/Firefly)。 | 模型 | 类型 | 训练任务 | 训练长度 | |-----------------------------------------------------------------------------------------------|------|--------|------| | 🤗[Firefly-LLaMA2-7B-Base](https://modelscope.cn/models/YeungNLP/firefly-llama2-7b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-13B-Base](https://modelscope.cn/models/YeungNLP/firefly-llama2-13b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-7B-Chat](https://modelscope.cn/models/YeungNLP/firefly-llama2-7b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-LLaMA2-13B-Chat](https://modelscope.cn/models/YeungNLP/firefly-llama2-13b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-Baichuan2-13B](https://modelscope.cn/models/YeungNLP/firefly-baichuan2-13b) | 指令模型 | 多轮指令微调 | 1024 | ## 模型评测 我们在CMMLU和Open LLM Leaderboard上分别对模型的中文和英文能力进行了客观评测,并且在我们构建的人工评测集上进行了人工评测。 **Open LLM Leaderboard和CMMLU榜单倾向于评测大模型的做题能力,不够全面,所以我们进一步进行了人工评测。** ### Open LLM Leaderboard | 模型 | Average | ARC | HellaSwag | MMLU | TruthfulQA | |-----------------------------|-----------|-------|-----------|-------|------------| | chinese-alpaca-2-13b | 60.94 | 58.7 | 79.74 | 55.1 | 50.22 | | openbuddy-llama2-13b-v8.1 | 60.47 | 55.97 | 79.79 | 54.95 | 51.16 | | flagalpha-llama2-13b-chat | 60.41 | 55.97 | 82.05 | 54.74 | 48.9 | | llama-2-13b-chat | 59.93 | 59.04 | 81.94 | 54.64 | 44.12 | | vicuna-13b-v1.1 | 59.22 | 52.73 | 80.13 | 51.94 | 52.08 | | guanaco-13b | 59.18 | 57.85 | 83.84 | 48.28 | 46.73 | | **firefly-llama2-13b-chat** | **59.05** | 57.51 | 77.94 | 52.56 | 48.18 | | llama-2-7b-chat | 56.34 | 52.9 | 78.55 | 48.32 | 45.57 | | flagalpha-llama2-7b-chat | 56.13 | 52.39 | 77.52 | 47.72 | 46.87 | | yayi-7b-llama2 | 54.45 | 55.03 | 77.84 | 40.92 | 44.02 | | chinese-alpaca-2-7b | 54.33 | 49.57 | 72.62 | 46.5 | 48.63 | | **firefly-llama2-7b-chat** | **54.19** | 51.19 | 73.32 | 45.47 | 46.78 | | yayi-13b-llama2 | 51.06 | 48.55 | 74.82 | 38.68 | 42.19 | | linly-llama2-7b | 49.06 | 48.04 | 73.25 | 35.04 | 39.92 | | linly-llama2-13b | 38.22 | 33.62 | 39.59 | 33.97 | 45.71 | | ziya-llama-13b* | - | - | 76.9 | 50.3 | - | *表示分数来源于OpenCompass官方,而非Open LLM Leaderboard官方数据 Conclusion:我们的模型保留了llama2模型优秀的英文能力,在Open LLM Leaderboard上,与llama2-chat、vicuna-v1.1、guanaco等模型的表现及其接近。 ### CMMLU榜单 | 模型 | CMMLU | 训练细节 | |-----------------------------|-----------|------------------------| | **firefly-baichuan2-13b** | **56.83** | 4\*V100,QLoRA,指令微调 | | chinese-alpaca-2-13b | 45.17 | 48\*A40,LoRA,词表扩充 + 增量预训练 + 指令微调 | | openbuddy-llama2-13b-v8.1 | 41.66 | 全量参数训练,词表扩充 + 指令微调 | | chinese-alpaca-2-7b | 40.86 | 48\*A40,LoRA,词表扩充 + 增量预训练 + 指令微调 | | ziya-llama-13b* | 39.9 | 160\*A100,全量参数训练,词表扩充 + 增量预训练 + 指令微调 + RLHF | | chinese-alpaca-plus-13b* | 39.9 | 48\*A40,LoRA,词表扩充 + 增量预训练 + 指令微调 | | **firefly-llama2-13b-chat** | **39.47** | 4\*V100,QLoRA,词表扩充 + 增量预训练 + 指令微调 | | flagalpha-llama2-13b-chat | 39.20 | LoRA,指令微调 | | llama-2-13b-chat | 38.65 | 全量参数训练,预训练 + 指令微调 + RLHF(全流程为英文) | | **firefly-llama2-7b-chat** | **34.03** | 4\*V100,QLoRA,词表扩充 + 增量预训练 + 指令微调 | | llama-2-7b-chat | 33.76 | 全量参数训练,预训练 + 指令微调 + RLHF(全流程为英文) | | flagalpha-llama2-7b-chat | 32.61 | LoRA,指令微调 | | chinese-alpaca-plus-7b* | 32.6 | 48\*A40,LoRA,词表扩充 + 增量预训练 + 指令微调 | | yayi-13b-llama2 | 30.73 | 指令微调 | | yayi-7b-llama2 | 30.47 | 指令微调 | | linly-llama2-7b | 28.68 | 32\*A100,全量参数训练,词表扩充 + 混合训练 | | linly-llama2-13b | 26.32 | 32\*A100,全量参数训练,词表扩充 + 混合训练 | 我们统一采用OpenCompass工具来离线评测CMMLU,其中*表示结果来源于OpenCompass官方榜单或者由模型作者自测的分数。 Conclusions: - 与llama-2-chat相比,我们的模型在中文方面的能力具有一定的提升。 - 对于中文词表扩充模型而言,我们的模型大幅领先全量训练的linly,与全量训练的ziya、chinese-alpaca-1及其接近。 - firefly-baichuan2-13b一骑绝尘,并且在OpenCompass的CMMLU榜单,该分数可排第8,小幅落后于百川官方模型,进一步验证了基座模型的重要性。 - 我们的模型在CMMLU上的指标与chinese-alpaca-2也存在一定的差距。这一现象很大程度与增量预训练数据量和数据分布相关,我们的增量预训练数据仅为22GB(未充分使用,详情见训练细节),增量预训练不够充分,且大部分为新闻语料,对于CMMLU能力的提升有限。 ### 人工评测 我们构建了评测集,其中包含13种评测任务,评测数据详见data/firefly-eval.xlsx。大部分数据从[Belle数据](https://huggingface.co/datasets/BELLE-2/train_3.5M_CN_With_Category)中进行采样和优化。 每种任务包含10条数据,一共130条数据。13种任务包含:头脑风暴、分类、Close QA、代码生成、 信息抽取、开放式生成、有害性检验、数学题、阅读理解、Open QA、Rewrite、Summarization、翻译。 评测标准如下: - 对于同一道题目,对两两模型的生成结果进行比较,存在胜负平三种关系。 - 对于客观题,如果两个模型均回答正确,或均回答错误,则为平局。 - 对于主观题,回答更加详细、真实、细节更丰富,则为获胜。当两者内容正确,并且详细程度非常接近时,或者各有千秋时,可视为平局。 - 对于中文题目,如果目标回复为中文,但模型却回复英文,则判为错误。 详细的评测结果可参考:[人工评测结果](https://docs.qq.com/sheet/DU1h1bE1xWG50ZVlI?tab=BB08J2)。在评测中,我们遵守设定的评测标准,但依旧难以完全避免主观因素的影响, 本着公开透明的原则,我们公开了评测细节,大家可比较模型效果。 同为基于LLaMA2进行汉化的模型,我们对Firefly-LLaMA2-13B-Chat和Linly-LLaMA2-13B进行了人工测评,从评测结果来看,我们的模型存在非常大的优势。 并且我们与Llama2-Chat-13B也进行了人工评测,也存在非常大的优势。 | 模型 | 获胜 | 平局 | 失败 | |---------------------------------------------|------|------------|----------| | Firefly-LLaMA2-13B-Chat VS Linly-LLaMA2-13B | **43(33.08%)** | 79(60.77%) | 8(6.15%) | | Firefly-LLaMA2-13B-Chat VS Llama2-Chat-13B | **86(66.15%)** | 40(30.77%) | 4(3.08%) |

# Firefly中文Llama2增量预训练数据 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/firefly_logo.png" width="250"> 欢迎加入Firefly大语言模型(Large Language Model)技术交流群,关注我们的公众号。 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/gongzhonghao.png" width="300"> ## 数据简介 技术文章:[QLoRA(Quantized Low-Rank Adaptation)增量预训练与指令微调,及汉化Llama2的实践](https://mp.weixin.qq.com/s/26-Qxma9M2wGoTQgOlKRmQ) 该数据为[Firefly-LLaMA2-Chinese项目](https://github.com/yangjianxin1/Firefly-LLaMA2-Chinese)的增量预训练数据集,总文本量约22GB,主要涵盖CLUE、ThucNews、CNews、COIG等开源数据集,以及团队采集的古诗词、散文、文言文等文本,数据分布如下图。 <img src="https://huggingface.co/YeungNLP/firefly-llama2-13b-chat/resolve/main/pics/pretrain-data.png" width="450"> ## 模型列表 & 数据列表 我们开源了7B与13B规格的基座(Base)与对话(Chat)模型。基座模型基于LLaMA2扩充中文词表后通过增量预训练得到,对话模型则在基座模型基础上完成多轮对话指令微调。 为探究基座模型对指令微调的影响,团队还对baichuan2-base模型进行微调,得到firefly-baichuan2-13b,效果表现优异。更多中文微调相关内容,可查阅[Firefly项目](https://github.com/yangjianxin1/Firefly)。 | 模型 | 类型 | 训练任务 | 训练长度 | |-----------------------------------------------------------------------------------------------|------|--------|------| | 🤗[Firefly-LLaMA2-7B-Base](https://modelscope.cn/models/YeungNLP/firefly-llama2-7b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-13B-Base](https://modelscope.cn/models/YeungNLP/firefly-llama2-13b-base) | 基座模型 | CLM | 1024 | | 🤗[Firefly-LLaMA2-7B-Chat](https://modelscope.cn/models/YeungNLP/firefly-llama2-7b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-LLaMA2-13B-Chat](https://modelscope.cn/models/YeungNLP/firefly-llama2-13b-chat) | 指令模型 | 多轮指令微调 | 1024 | | 🤗[Firefly-Baichuan2-13B](https://modelscope.cn/models/YeungNLP/firefly-baichuan2-13b) | 指令模型 | 多轮指令微调 | 1024 | ## 模型评测 我们分别在CMMLU与Open LLM Leaderboard上对模型的中英文能力进行客观评测,并基于团队构建的人工评测集开展人工评测。**Open LLM Leaderboard与CMMLU榜单更侧重评测大语言模型的应试能力,覆盖维度不够全面,因此我们进一步补充了人工评测。** ### Open LLM Leaderboard | 模型 | Average | ARC | HellaSwag | MMLU | TruthfulQA | |-----------------------------|-----------|-------|-----------|-------|------------| | chinese-alpaca-2-13b | 60.94 | 58.7 | 79.74 | 55.1 | 50.22 | | openbuddy-llama2-13b-v8.1 | 60.47 | 55.97 | 79.79 | 54.95 | 51.16 | | flagalpha-llama2-13b-chat | 60.41 | 55.97 | 82.05 | 54.74 | 48.9 | | llama-2-13b-chat | 59.93 | 59.04 | 81.94 | 54.64 | 44.12 | | vicuna-13b-v1.1 | 59.22 | 52.73 | 80.13 | 51.94 | 52.08 | | guanaco-13b | 59.18 | 57.85 | 83.84 | 48.28 | 46.73 | | **firefly-llama2-13b-chat** | **59.05** | 57.51 | 77.94 | 52.56 | 48.18 | | llama-2-7b-chat | 56.34 | 52.9 | 78.55 | 48.32 | 45.57 | | flagalpha-llama2-7b-chat | 56.13 | 52.39 | 77.52 | 47.72 | 46.87 | | yayi-7b-llama2 | 54.45 | 55.03 | 77.84 | 40.92 | 44.02 | | chinese-alpaca-2-7b | 54.33 | 49.57 | 72.62 | 46.5 | 48.63 | | **firefly-llama2-7b-chat** | **54.19** | 51.19 | 73.32 | 45.47 | 46.78 | | yayi-13b-llama2 | 51.06 | 48.55 | 74.82 | 38.68 | 42.19 | | linly-llama2-7b | 49.06 | 48.04 | 73.25 | 35.04 | 39.92 | | linly-llama2-13b | 38.22 | 33.62 | 39.59 | 33.97 | 45.71 | | ziya-llama-13b* | - | - | 76.9 | 50.3 | - | *表示分数来源于OpenCompass官方榜单,而非Open LLM Leaderboard官方数据 **结论**:本团队模型保留了LLaMA2优秀的英文能力,在Open LLM Leaderboard上的表现与llama2-chat、vicuna-v1.1、guanaco等模型极为接近。 ### CMMLU榜单 | 模型 | CMMLU | 训练细节 | |-----------------------------|-----------|------------------------| | **firefly-baichuan2-13b** | **56.83** | 4*V100,QLoRA,指令微调 | | chinese-alpaca-2-13b | 45.17 | 48*A40,LoRA,词表扩充 + 增量预训练 + 指令微调 | | openbuddy-llama2-13b-v8.1 | 41.66 | 全量参数训练,词表扩充 + 指令微调 | | chinese-alpaca-2-7b | 40.86 | 48*A40,LoRA,词表扩充 + 增量预训练 + 指令微调 | | ziya-llama-13b* | 39.9 | 160*A100,全量参数训练,词表扩充 + 增量预训练 + 指令微调 + RLHF | | chinese-alpaca-plus-13b* | 39.9 | 48*A40,LoRA,词表扩充 + 增量预训练 + 指令微调 | | **firefly-llama2-13b-chat** | **39.47** | 4*V100,QLoRA,词表扩充 + 增量预训练 + 指令微调 | | flagalpha-llama2-13b-chat | 39.20 | LoRA,指令微调 | | llama-2-13b-chat | 38.65 | 全量参数训练,预训练 + 指令微调 + RLHF(全流程为英文) | | **firefly-llama2-7b-chat** | **34.03** | 4*V100,QLoRA,词表扩充 + 增量预训练 + 指令微调 | | llama-2-7b-chat | 33.76 | 全量参数训练,预训练 + 指令微调 + RLHF(全流程为英文) | | flagalpha-llama2-7b-chat | 32.61 | LoRA,指令微调 | | chinese-alpaca-plus-7b* | 32.6 | 48*A40,LoRA,词表扩充 + 增量预训练 + 指令微调 | | yayi-13b-llama2 | 30.73 | 指令微调 | | yayi-7b-llama2 | 30.47 | 指令微调 | | linly-llama2-7b | 28.68 | 32*A100,全量参数训练,词表扩充 + 混合训练 | | linly-llama2-13b | 26.32 | 32*A100,全量参数训练,词表扩充 + 混合训练 | 我们统一采用OpenCompass工具离线评测CMMLU,其中*表示结果来源于OpenCompass官方榜单或模型作者自测分数。 **结论**: - 相较于llama-2-chat,本团队模型的中文能力有一定提升。 - 针对中文词表扩充类模型,本团队模型大幅领先全量训练的linly,与全量训练的ziya、chinese-alpaca-1等模型表现接近。 - firefly-baichuan2-13b表现突出,在OpenCompass的CMMLU榜单中排名第8,小幅落后于百川官方模型,进一步验证了基座模型的重要性。 - 本团队模型在CMMLU上的指标与chinese-alpaca-2存在一定差距,这一现象主要与增量预训练的数据量和数据分布相关:本次增量预训练数据仅为22GB(未充分使用,详见训练细节),增量预训练不够充分,且多数为新闻语料,对CMMLU能力的提升有限。 ### 人工评测 我们构建了包含13类评测任务的评测集,评测数据详见`data/firefly-eval.xlsx`,其中大部分数据从[Belle数据集](https://huggingface.co/datasets/BELLE-2/train_3.5M_CN_With_Category)中采样优化而来。每类任务包含10条数据,总计130条样本。13类任务分别为:头脑风暴、分类、Close QA、代码生成、信息抽取、开放式生成、有害性检验、数学题、阅读理解、Open QA、Rewrite、Summarization、翻译。 评测标准如下: - 针对同一题目,对两个模型的生成结果进行比较,分为胜、平、负三种关系。 - 针对客观题,若两个模型均回答正确或均回答错误,则判定为平局。 - 针对主观题,回答更详细、真实且细节更丰富的模型获胜;若两者内容正确且详细程度相近,或各有优劣,则视为平局。 - 针对中文题目,若目标回复为中文但模型输出英文,则判定为错误。 详细评测结果可查阅:[人工评测结果](https://docs.qq.com/sheet/DU1h1bE1xWG50ZVlI?tab=BB08J2)。本次评测虽遵循既定标准,但仍难以完全规避主观因素影响,本着公开透明的原则,我们公开了全部评测细节,供大家对比模型效果。 作为基于LLaMA2汉化的模型,我们对Firefly-LLaMA2-13B-Chat与Linly-LLaMA2-13B开展了人工测评,结果显示本团队模型具备显著优势;同时我们也与Llama2-Chat-13B进行了人工评测,同样体现出较大优势。 | 模型 | 获胜 | 平局 | 失败 | |---------------------------------------------|------|------------|----------| | Firefly-LLaMA2-13B-Chat VS Linly-LLaMA2-13B | **43(33.08%)** | 79(60.77%) | 8(6.15%) | | Firefly-LLaMA2-13B-Chat VS Llama2-Chat-13B | **86(66.15%)** | 40(30.77%) | 4(3.08%) |
提供机构:
maas
创建时间:
2023-10-24
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是Firefly-LLaMA2-Chinese项目的增量预训练数据,总大小约22GB,主要包含CLUE、ThucNews、CNews、COIG、维基百科等开源数据集以及古诗词、散文、文言文等中文语料,用于训练基座模型和指令模型以提升中文处理能力。数据集在模型评测中表现出色,尤其在中文任务上相比其他模型有优势,但增量预训练数据量有限且以新闻语料为主,可能影响某些评测指标。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作