belle_cn
收藏github2023-06-02 更新2024-05-31 收录
下载链接:
https://github.com/chaoswork/sft_datasets
下载链接
链接失效反馈官方服务:
资源简介:
通用指令,数学推理,对话
General instructions, mathematical reasoning, dialogue
创建时间:
2023-06-02
原始信息汇总
开源SFT数据集整理
数据集概览
| 数据集名称 | 数据集数目 | 语言 | 任务类型 | 生成方式 | 数据集描述 | 数据集来源 | 下载链接 |
|---|---|---|---|---|---|---|---|
| belle_cn | 1079517 | CN | TS/MT | SI | 通用指令,数学推理,对话 | text-davinci-003 | 下载 |
| firefly | 1649398 | CN | MT | COL | 23种nlp任务 | 收集中文数据集,人工书写指令模板 | 下载 |
| GAOKAO | 2785 | CN | MT | COL | 高考中的多选,填空等问题 | 人工标注的数据集的收集 | 下载 |
| COIG | 298428 | CN | MT | COL | 考试,翻译,价值观指令数据集搜集,基于知识图谱的反事实对话 | 自动化工具+人工验证 | 下载 |
| pCLUE | 1200705 | CN | MT | 73个Prompt,分类,推理,关键词识别,阅读理解等9个NLP任务 | 下载 | ||
| CSL | 396209 | CN | MT | 40万中文论文元数据,26个Prompt | 下载 | ||
| CNewSum | 304307 | CN | TS | 字节与UCSB发布的中文摘要数据集 | 下载 | ||
| Coco-cn | CN | TS | 图文多模态 | 下载 | |||
| news_commentary | 69200 | EN/CN | TS | 中英文翻译数据 | 下载 | ||
| Chain of Thought | 74771 | EN/CN | MT | HG | CoT相关任务 | 人在现有数据集上标注CoT | 下载 |
| HC3 | 37175 | EN/CN | TS | MIX | 对话评估 | gpt-3.5 或 人工 | 下载 |
| instinwild | 52191 | EN/CN | MT | SI | 生成,开放域问答,头脑风暴 | text-davunci-003 | 下载 |
| Alpaca_GPT4 | 52002 | EN/CN | MT | SI | 通用指令 | GPT-4 生成的Alpaca数据 | 下载 |
| MOSS | 1583595 | EN/CN | SI | 下载 | |||
| Guanaco | 534610 | ML | MT | SI | 多种nlp任务 | text-davinci-003 | 下载 |
| Natural Instructions | 5040134 | ML | MT | COL | 多种nlp任务 | 人工标注的数据集的收集 | 下载 |
| xP3 | 78883588 | ML | MT | COL | 多种nlp任务 | 人工标注的数据集的收集 | 下载 |
| alpaca | 52002 | EN | MT | SI | 通用指令 | text-davinci-003 | 下载 |
| GPT4all | 806199 | EN | MT | COL | 代码,故事,对话 | GPT-3.5-turbo 蒸馏 | 下载 |
| GPTeacher | 29013 | EN | MT | SI | 通用,角色扮演,工具指令 | GPT-4 & toolformer | 下载 |
| prosocial dialog | 165681 | EN | TS | MIX | 对话 | GPT-3改写问题,人工回复 | 下载 |
| finance_en | 68912 | EN | TS | COL | 金融领域问答 | GPT3.5 | 下载 |
| instruct | 888969 | EN | MT | COL | GPT4All,Alpaca和开源数据集的增强 | 使用AllenAI提供的nlp增强工具 | 下载 |
| Code Alpaca | 20022 | EN | SI | SI | 代码生成,编辑,优化 | text-davinci-003 | 下载 |
| webGPT | 18994 | EN | TS | MIX | 信息检索问答 | fine-tuned GPT-3 + 人工评估 | 下载 |
| dolly 2.0 | 15015 | EN | TS | HG | 公开、封闭式问答、信息抽取、摘要生成、开放式构思、分类以及创意写作七类任务 | 人工标注 | 下载 |
| baize | 653699 | EN | MT | COL | Alpaca和多种问答任务 | 人工标注的数据集的收集 | 下载 |
| hh-rlhf | 284517 | EN | TS | MIX | 对话 | RLHF models | 下载 |
| OIG(part) | 49237 | EN | MT | COL | 多种nlp任务 | 人工标注的数据集的收集和数据增强 | 下载 |
| camel | 760620 | EN | MT | SI | 物理生物化学编程,数学,社会等领域的角色扮演对话人工标注的数据集的收集 | gpt-3.5-turbo 生成 | 下载 |
| FLAN-Muffin | 1764800 | EN | MT | COL | 60种nlp任务 | 人工标注的数据集的收集 | 下载 |
| GPT4Tools | 71446 | EN | MT | SI | a collection of tool-related instructions | gpt-3.5-turbo | 下载 |
| ShareChat | 1663241 | EN | MT | MIX | general instruct | 收集ShareGPT | 下载 |
数据集详细信息
-
belle_cn
- 数目: 1079517
- 语言: CN
- 任务类型: TS/MT
- 生成方式: SI
- 描述: 通用指令,数学推理,对话
- 来源: text-davinci-003
- 下载链接: 下载
-
firefly
- 数目: 1649398
- 语言: CN
- 任务类型: MT
- 生成方式: COL
- 描述: 23种nlp任务
- 来源: 收集中文数据集,人工书写指令模板
- 下载链接: 下载
-
GAOKAO
- 数目: 2785
- 语言: CN
- 任务类型: MT
- 生成方式: COL
- 描述: 高考中的多选,填空等问题
- 来源: 人工标注的数据集的收集
- 下载链接: 下载
-
COIG
- 数目: 298428
- 语言: CN
- 任务类型: MT
- 生成方式: COL
- 描述: 考试,翻译,价值观指令数据集搜集,基于知识图谱的反事实对话
- 来源: 自动化工具+人工验证
- 下载链接: 下载
-
pCLUE
- 数目: 1200705
- 语言: CN
- 任务类型: MT
- 生成方式:
- 描述: 73个Prompt,分类,推理,关键词识别,阅读理解等9个NLP任务
- 来源:
- 下载链接: 下载
-
CSL
- 数目: 396209
- 语言: CN
- 任务类型: MT
- 生成方式:
- 描述: 40万中文论文元数据,26个Prompt
- 来源:
- 下载链接: 下载
-
CNewSum
- 数目: 304307
- 语言: CN
- 任务类型: TS
- 生成方式:
- 描述: 字节与UCSB发布的中文摘要数据集
- 来源:
- 下载链接: 下载
-
Coco-cn
- 数目:
- 语言: CN
- 任务类型: TS
- 生成方式:
- 描述: 图文多模态
- 来源:
- 下载链接: 下载
-
news_commentary
- 数目: 69200
- 语言: EN/CN
- 任务类型: TS
- 生成方式:
- 描述: 中英文翻译数据
- 来源:
- 下载链接: 下载
-
Chain of Thought
- 数目: 74771
- 语言: EN/CN
- 任务类型: MT
- 生成方式: HG
- 描述: CoT相关任务
- 来源: 人在现有数据集上标注CoT
- 下载链接: 下载
-
HC3
- 数目: 37175
- 语言: EN/CN
- 任务类型: TS
- 生成方式: MIX
- 描述: 对话评估
- 来源: gpt-3.5 或 人工
- 下载链接: 下载
-
instinwild
- 数目: 52191
- 语言: EN/CN
- 任务类型: MT
- 生成方式: SI
- 描述: 生成,开放域问答,头脑风暴
- 来源: text-davunci-003
- 下载链接: 下载
-
Alpaca_GPT4
- 数目: 52002
- 语言: EN/CN
- 任务类型: MT
- 生成方式: SI
- 描述: 通用指令
- 来源: GPT-4 生成的Alpaca数据
搜集汇总
数据集介绍

构建方式
belle_cn数据集的构建依托于text-davinci-003模型,通过自动化生成与人工筛选相结合的方式,涵盖了通用指令、数学推理及对话等多种任务类型。该数据集以中文为主,旨在为自然语言处理领域提供高质量的指令微调数据。构建过程中,特别注重数据的多样性与实用性,确保其能够广泛应用于不同的NLP任务。
特点
belle_cn数据集以其丰富的内容和高质量的数据著称,包含超过百万条中文指令数据,涵盖了广泛的NLP任务类型。其独特之处在于数据的多样性与深度,不仅包含通用指令,还涉及数学推理和对话生成等复杂任务。此外,数据集的构建基于先进的生成模型,确保了数据的准确性和实用性,为研究者提供了强有力的支持。
使用方法
belle_cn数据集适用于多种自然语言处理任务,如指令微调、对话生成及数学推理等。用户可通过Hugging Face平台直接下载数据集,并结合自身的需求进行模型训练与评估。该数据集的使用方法灵活多样,既可用于预训练模型的微调,也可作为基准数据集用于模型性能的测试与比较。通过合理的数据预处理与模型配置,研究者能够充分利用该数据集提升模型的性能与泛化能力。
背景与挑战
背景概述
belle_cn数据集是由BelleGroup团队创建的一个大规模中文指令微调数据集,旨在推动中文自然语言处理领域的发展。该数据集涵盖了通用指令、数学推理和对话等多种任务,数据量达到1079517条,主要基于text-davinci-003生成。belle_cn的创建标志着中文指令微调数据集的进一步完善,为中文语言模型的训练和评估提供了丰富的资源。该数据集的出现不仅填补了中文指令数据集的空白,还为中文自然语言处理研究提供了新的方向,推动了中文语言模型在复杂任务中的表现提升。
当前挑战
belle_cn数据集在构建和应用过程中面临多重挑战。首先,中文语言的多义性和复杂性使得指令生成和标注的准确性难以保证,尤其是在数学推理和对话任务中,语义的精确表达至关重要。其次,数据集的规模庞大,如何确保数据的多样性和质量成为一大难题,尤其是在自动化生成过程中,避免重复和低质量数据的混入。此外,中文指令微调任务的研究尚处于早期阶段,如何设计有效的评估指标以衡量模型在复杂任务中的表现,仍需进一步探索。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和优化提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,belle_cn数据集广泛应用于中文指令微调任务,尤其是在通用指令、数学推理和对话生成等场景中。其丰富的语料库为模型提供了多样化的训练样本,使得模型能够更好地理解和生成符合中文语境的自然语言。该数据集的高质量标注和广泛覆盖的领域使其成为中文NLP研究中的重要资源。
实际应用
在实际应用中,belle_cn数据集被广泛用于智能客服、教育辅助系统和自动化问答系统等领域。其丰富的对话和指令数据使得模型能够在实际场景中提供更加精准和自然的交互体验。例如,在教育领域,基于该数据集训练的模型能够帮助学生解答数学问题,并提供个性化的学习建议。
衍生相关工作
belle_cn数据集的推出催生了一系列相关研究工作,特别是在中文指令微调和多任务学习领域。许多研究团队基于该数据集开发了新的模型架构和训练方法,进一步提升了中文NLP模型的性能。此外,该数据集还被用于跨语言迁移学习的研究,推动了多语言模型的统一化发展。
以上内容由遇见数据集搜集并总结生成



