belle_cn

github2023-06-02 更新2024-05-31 收录

下载链接：

https://github.com/chaoswork/sft_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

通用指令，数学推理，对话

General instructions, mathematical reasoning, dialogue

创建时间：

2023-06-02

原始信息汇总

开源SFT数据集整理

数据集概览

数据集名称	数据集数目	语言	任务类型	生成方式	数据集描述	数据集来源	下载链接
belle_cn	1079517	CN	TS/MT	SI	通用指令，数学推理，对话	text-davinci-003	下载
firefly	1649398	CN	MT	COL	23种nlp任务	收集中文数据集，人工书写指令模板	下载
GAOKAO	2785	CN	MT	COL	高考中的多选，填空等问题	人工标注的数据集的收集	下载
COIG	298428	CN	MT	COL	考试，翻译，价值观指令数据集搜集，基于知识图谱的反事实对话	自动化工具+人工验证	下载
pCLUE	1200705	CN	MT		73个Prompt,分类，推理，关键词识别，阅读理解等9个NLP任务		下载
CSL	396209	CN	MT		40万中文论文元数据，26个Prompt		下载
CNewSum	304307	CN	TS		字节与UCSB发布的中文摘要数据集		下载
Coco-cn		CN	TS		图文多模态		下载
news_commentary	69200	EN/CN	TS		中英文翻译数据		下载
Chain of Thought	74771	EN/CN	MT	HG	CoT相关任务	人在现有数据集上标注CoT	下载
HC3	37175	EN/CN	TS	MIX	对话评估	gpt-3.5 或人工	下载
instinwild	52191	EN/CN	MT	SI	生成，开放域问答，头脑风暴	text-davunci-003	下载
Alpaca_GPT4	52002	EN/CN	MT	SI	通用指令	GPT-4 生成的Alpaca数据	下载
MOSS	1583595	EN/CN	SI				下载
Guanaco	534610	ML	MT	SI	多种nlp任务	text-davinci-003	下载
Natural Instructions	5040134	ML	MT	COL	多种nlp任务	人工标注的数据集的收集	下载
xP3	78883588	ML	MT	COL	多种nlp任务	人工标注的数据集的收集	下载
alpaca	52002	EN	MT	SI	通用指令	text-davinci-003	下载
GPT4all	806199	EN	MT	COL	代码，故事，对话	GPT-3.5-turbo 蒸馏	下载
GPTeacher	29013	EN	MT	SI	通用，角色扮演，工具指令	GPT-4 & toolformer	下载
prosocial dialog	165681	EN	TS	MIX	对话	GPT-3改写问题，人工回复	下载
finance_en	68912	EN	TS	COL	金融领域问答	GPT3.5	下载
instruct	888969	EN	MT	COL	GPT4All，Alpaca和开源数据集的增强	使用AllenAI提供的nlp增强工具	下载
Code Alpaca	20022	EN	SI	SI	代码生成，编辑，优化	text-davinci-003	下载
webGPT	18994	EN	TS	MIX	信息检索问答	fine-tuned GPT-3 + 人工评估	下载
dolly 2.0	15015	EN	TS	HG	公开、封闭式问答、信息抽取、摘要生成、开放式构思、分类以及创意写作七类任务	人工标注	下载
baize	653699	EN	MT	COL	Alpaca和多种问答任务	人工标注的数据集的收集	下载
hh-rlhf	284517	EN	TS	MIX	对话	RLHF models	下载
OIG(part)	49237	EN	MT	COL	多种nlp任务	人工标注的数据集的收集和数据增强	下载
camel	760620	EN	MT	SI	物理生物化学编程，数学，社会等领域的角色扮演对话人工标注的数据集的收集	gpt-3.5-turbo 生成	下载
FLAN-Muffin	1764800	EN	MT	COL	60种nlp任务	人工标注的数据集的收集	下载
GPT4Tools	71446	EN	MT	SI	a collection of tool-related instructions	gpt-3.5-turbo	下载
ShareChat	1663241	EN	MT	MIX	general instruct	收集ShareGPT	下载

数据集详细信息

belle_cn
- 数目: 1079517
- 语言: CN
- 任务类型: TS/MT
- 生成方式: SI
- 描述: 通用指令，数学推理，对话
- 来源: text-davinci-003
- 下载链接: 下载
firefly
- 数目: 1649398
- 语言: CN
- 任务类型: MT
- 生成方式: COL
- 描述: 23种nlp任务
- 来源: 收集中文数据集，人工书写指令模板
- 下载链接: 下载
GAOKAO
- 数目: 2785
- 语言: CN
- 任务类型: MT
- 生成方式: COL
- 描述: 高考中的多选，填空等问题
- 来源: 人工标注的数据集的收集
- 下载链接: 下载
COIG
- 数目: 298428
- 语言: CN
- 任务类型: MT
- 生成方式: COL
- 描述: 考试，翻译，价值观指令数据集搜集，基于知识图谱的反事实对话
- 来源: 自动化工具+人工验证
- 下载链接: 下载
pCLUE
- 数目: 1200705
- 语言: CN
- 任务类型: MT
- 生成方式:
- 描述: 73个Prompt,分类，推理，关键词识别，阅读理解等9个NLP任务
- 来源:
- 下载链接: 下载
CSL
- 数目: 396209
- 语言: CN
- 任务类型: MT
- 生成方式:
- 描述: 40万中文论文元数据，26个Prompt
- 来源:
- 下载链接: 下载
CNewSum
- 数目: 304307
- 语言: CN
- 任务类型: TS
- 生成方式:
- 描述: 字节与UCSB发布的中文摘要数据集
- 来源:
- 下载链接: 下载
Coco-cn
- 数目:
- 语言: CN
- 任务类型: TS
- 生成方式:
- 描述: 图文多模态
- 来源:
- 下载链接: 下载
news_commentary
- 数目: 69200
- 语言: EN/CN
- 任务类型: TS
- 生成方式:
- 描述: 中英文翻译数据
- 来源:
- 下载链接: 下载
Chain of Thought
- 数目: 74771
- 语言: EN/CN
- 任务类型: MT
- 生成方式: HG
- 描述: CoT相关任务
- 来源: 人在现有数据集上标注CoT
- 下载链接: 下载
HC3
- 数目: 37175
- 语言: EN/CN
- 任务类型: TS
- 生成方式: MIX
- 描述: 对话评估
- 来源: gpt-3.5 或人工
- 下载链接: 下载
instinwild
- 数目: 52191
- 语言: EN/CN
- 任务类型: MT
- 生成方式: SI
- 描述: 生成，开放域问答，头脑风暴
- 来源: text-davunci-003
- 下载链接: 下载
Alpaca_GPT4
- 数目: 52002
- 语言: EN/CN
- 任务类型: MT
- 生成方式: SI
- 描述: 通用指令
- 来源: GPT-4 生成的Alpaca数据

搜集汇总

数据集介绍

构建方式

belle_cn数据集的构建依托于text-davinci-003模型，通过自动化生成与人工筛选相结合的方式，涵盖了通用指令、数学推理及对话等多种任务类型。该数据集以中文为主，旨在为自然语言处理领域提供高质量的指令微调数据。构建过程中，特别注重数据的多样性与实用性，确保其能够广泛应用于不同的NLP任务。

特点

belle_cn数据集以其丰富的内容和高质量的数据著称，包含超过百万条中文指令数据，涵盖了广泛的NLP任务类型。其独特之处在于数据的多样性与深度，不仅包含通用指令，还涉及数学推理和对话生成等复杂任务。此外，数据集的构建基于先进的生成模型，确保了数据的准确性和实用性，为研究者提供了强有力的支持。

使用方法

belle_cn数据集适用于多种自然语言处理任务，如指令微调、对话生成及数学推理等。用户可通过Hugging Face平台直接下载数据集，并结合自身的需求进行模型训练与评估。该数据集的使用方法灵活多样，既可用于预训练模型的微调，也可作为基准数据集用于模型性能的测试与比较。通过合理的数据预处理与模型配置，研究者能够充分利用该数据集提升模型的性能与泛化能力。

背景与挑战

背景概述

belle_cn数据集是由BelleGroup团队创建的一个大规模中文指令微调数据集，旨在推动中文自然语言处理领域的发展。该数据集涵盖了通用指令、数学推理和对话等多种任务，数据量达到1079517条，主要基于text-davinci-003生成。belle_cn的创建标志着中文指令微调数据集的进一步完善，为中文语言模型的训练和评估提供了丰富的资源。该数据集的出现不仅填补了中文指令数据集的空白，还为中文自然语言处理研究提供了新的方向，推动了中文语言模型在复杂任务中的表现提升。

当前挑战

belle_cn数据集在构建和应用过程中面临多重挑战。首先，中文语言的多义性和复杂性使得指令生成和标注的准确性难以保证，尤其是在数学推理和对话任务中，语义的精确表达至关重要。其次，数据集的规模庞大，如何确保数据的多样性和质量成为一大难题，尤其是在自动化生成过程中，避免重复和低质量数据的混入。此外，中文指令微调任务的研究尚处于早期阶段，如何设计有效的评估指标以衡量模型在复杂任务中的表现，仍需进一步探索。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和优化提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，belle_cn数据集广泛应用于中文指令微调任务，尤其是在通用指令、数学推理和对话生成等场景中。其丰富的语料库为模型提供了多样化的训练样本，使得模型能够更好地理解和生成符合中文语境的自然语言。该数据集的高质量标注和广泛覆盖的领域使其成为中文NLP研究中的重要资源。

实际应用

在实际应用中，belle_cn数据集被广泛用于智能客服、教育辅助系统和自动化问答系统等领域。其丰富的对话和指令数据使得模型能够在实际场景中提供更加精准和自然的交互体验。例如，在教育领域，基于该数据集训练的模型能够帮助学生解答数学问题，并提供个性化的学习建议。

衍生相关工作

belle_cn数据集的推出催生了一系列相关研究工作，特别是在中文指令微调和多任务学习领域。许多研究团队基于该数据集开发了新的模型架构和训练方法，进一步提升了中文NLP模型的性能。此外，该数据集还被用于跨语言迁移学习的研究，推动了多语言模型的统一化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集