five

belle_cn

收藏
github2023-06-02 更新2024-05-31 收录
下载链接:
https://github.com/chaoswork/sft_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
通用指令,数学推理,对话

General instructions, mathematical reasoning, dialogue
创建时间:
2023-06-02
原始信息汇总

开源SFT数据集整理

数据集概览

数据集名称 数据集数目 语言 任务类型 生成方式 数据集描述 数据集来源 下载链接
belle_cn 1079517 CN TS/MT SI 通用指令,数学推理,对话 text-davinci-003 下载
firefly 1649398 CN MT COL 23种nlp任务 收集中文数据集,人工书写指令模板 下载
GAOKAO 2785 CN MT COL 高考中的多选,填空等问题 人工标注的数据集的收集 下载
COIG 298428 CN MT COL 考试,翻译,价值观指令数据集搜集,基于知识图谱的反事实对话 自动化工具+人工验证 下载
pCLUE 1200705 CN MT 73个Prompt,分类,推理,关键词识别,阅读理解等9个NLP任务 下载
CSL 396209 CN MT 40万中文论文元数据,26个Prompt 下载
CNewSum 304307 CN TS 字节与UCSB发布的中文摘要数据集 下载
Coco-cn CN TS 图文多模态 下载
news_commentary 69200 EN/CN TS 中英文翻译数据 下载
Chain of Thought 74771 EN/CN MT HG CoT相关任务 人在现有数据集上标注CoT 下载
HC3 37175 EN/CN TS MIX 对话评估 gpt-3.5 或 人工 下载
instinwild 52191 EN/CN MT SI 生成,开放域问答,头脑风暴 text-davunci-003 下载
Alpaca_GPT4 52002 EN/CN MT SI 通用指令 GPT-4 生成的Alpaca数据 下载
MOSS 1583595 EN/CN SI 下载
Guanaco 534610 ML MT SI 多种nlp任务 text-davinci-003 下载
Natural Instructions 5040134 ML MT COL 多种nlp任务 人工标注的数据集的收集 下载
xP3 78883588 ML MT COL 多种nlp任务 人工标注的数据集的收集 下载
alpaca 52002 EN MT SI 通用指令 text-davinci-003 下载
GPT4all 806199 EN MT COL 代码,故事,对话 GPT-3.5-turbo 蒸馏 下载
GPTeacher 29013 EN MT SI 通用,角色扮演,工具指令 GPT-4 & toolformer 下载
prosocial dialog 165681 EN TS MIX 对话 GPT-3改写问题,人工回复 下载
finance_en 68912 EN TS COL 金融领域问答 GPT3.5 下载
instruct 888969 EN MT COL GPT4All,Alpaca和开源数据集的增强 使用AllenAI提供的nlp增强工具 下载
Code Alpaca 20022 EN SI SI 代码生成,编辑,优化 text-davinci-003 下载
webGPT 18994 EN TS MIX 信息检索问答 fine-tuned GPT-3 + 人工评估 下载
dolly 2.0 15015 EN TS HG 公开、封闭式问答、信息抽取、摘要生成、开放式构思、分类以及创意写作七类任务 人工标注 下载
baize 653699 EN MT COL Alpaca和多种问答任务 人工标注的数据集的收集 下载
hh-rlhf 284517 EN TS MIX 对话 RLHF models 下载
OIG(part) 49237 EN MT COL 多种nlp任务 人工标注的数据集的收集和数据增强 下载
camel 760620 EN MT SI 物理生物化学编程,数学,社会等领域的角色扮演对话人工标注的数据集的收集 gpt-3.5-turbo 生成 下载
FLAN-Muffin 1764800 EN MT COL 60种nlp任务 人工标注的数据集的收集 下载
GPT4Tools 71446 EN MT SI a collection of tool-related instructions gpt-3.5-turbo 下载
ShareChat 1663241 EN MT MIX general instruct 收集ShareGPT 下载

数据集详细信息

  1. belle_cn

    • 数目: 1079517
    • 语言: CN
    • 任务类型: TS/MT
    • 生成方式: SI
    • 描述: 通用指令,数学推理,对话
    • 来源: text-davinci-003
    • 下载链接: 下载
  2. firefly

    • 数目: 1649398
    • 语言: CN
    • 任务类型: MT
    • 生成方式: COL
    • 描述: 23种nlp任务
    • 来源: 收集中文数据集,人工书写指令模板
    • 下载链接: 下载
  3. GAOKAO

    • 数目: 2785
    • 语言: CN
    • 任务类型: MT
    • 生成方式: COL
    • 描述: 高考中的多选,填空等问题
    • 来源: 人工标注的数据集的收集
    • 下载链接: 下载
  4. COIG

    • 数目: 298428
    • 语言: CN
    • 任务类型: MT
    • 生成方式: COL
    • 描述: 考试,翻译,价值观指令数据集搜集,基于知识图谱的反事实对话
    • 来源: 自动化工具+人工验证
    • 下载链接: 下载
  5. pCLUE

    • 数目: 1200705
    • 语言: CN
    • 任务类型: MT
    • 生成方式:
    • 描述: 73个Prompt,分类,推理,关键词识别,阅读理解等9个NLP任务
    • 来源:
    • 下载链接: 下载
  6. CSL

    • 数目: 396209
    • 语言: CN
    • 任务类型: MT
    • 生成方式:
    • 描述: 40万中文论文元数据,26个Prompt
    • 来源:
    • 下载链接: 下载
  7. CNewSum

    • 数目: 304307
    • 语言: CN
    • 任务类型: TS
    • 生成方式:
    • 描述: 字节与UCSB发布的中文摘要数据集
    • 来源:
    • 下载链接: 下载
  8. Coco-cn

    • 数目:
    • 语言: CN
    • 任务类型: TS
    • 生成方式:
    • 描述: 图文多模态
    • 来源:
    • 下载链接: 下载
  9. news_commentary

    • 数目: 69200
    • 语言: EN/CN
    • 任务类型: TS
    • 生成方式:
    • 描述: 中英文翻译数据
    • 来源:
    • 下载链接: 下载
  10. Chain of Thought

    • 数目: 74771
    • 语言: EN/CN
    • 任务类型: MT
    • 生成方式: HG
    • 描述: CoT相关任务
    • 来源: 人在现有数据集上标注CoT
    • 下载链接: 下载
  11. HC3

    • 数目: 37175
    • 语言: EN/CN
    • 任务类型: TS
    • 生成方式: MIX
    • 描述: 对话评估
    • 来源: gpt-3.5 或 人工
    • 下载链接: 下载
  12. instinwild

    • 数目: 52191
    • 语言: EN/CN
    • 任务类型: MT
    • 生成方式: SI
    • 描述: 生成,开放域问答,头脑风暴
    • 来源: text-davunci-003
    • 下载链接: 下载
  13. Alpaca_GPT4

    • 数目: 52002
    • 语言: EN/CN
    • 任务类型: MT
    • 生成方式: SI
    • 描述: 通用指令
    • 来源: GPT-4 生成的Alpaca数据
搜集汇总
数据集介绍
main_image_url
构建方式
belle_cn数据集的构建依托于text-davinci-003模型,通过自动化生成与人工筛选相结合的方式,涵盖了通用指令、数学推理及对话等多种任务类型。该数据集以中文为主,旨在为自然语言处理领域提供高质量的指令微调数据。构建过程中,特别注重数据的多样性与实用性,确保其能够广泛应用于不同的NLP任务。
特点
belle_cn数据集以其丰富的内容和高质量的数据著称,包含超过百万条中文指令数据,涵盖了广泛的NLP任务类型。其独特之处在于数据的多样性与深度,不仅包含通用指令,还涉及数学推理和对话生成等复杂任务。此外,数据集的构建基于先进的生成模型,确保了数据的准确性和实用性,为研究者提供了强有力的支持。
使用方法
belle_cn数据集适用于多种自然语言处理任务,如指令微调、对话生成及数学推理等。用户可通过Hugging Face平台直接下载数据集,并结合自身的需求进行模型训练与评估。该数据集的使用方法灵活多样,既可用于预训练模型的微调,也可作为基准数据集用于模型性能的测试与比较。通过合理的数据预处理与模型配置,研究者能够充分利用该数据集提升模型的性能与泛化能力。
背景与挑战
背景概述
belle_cn数据集是由BelleGroup团队创建的一个大规模中文指令微调数据集,旨在推动中文自然语言处理领域的发展。该数据集涵盖了通用指令、数学推理和对话等多种任务,数据量达到1079517条,主要基于text-davinci-003生成。belle_cn的创建标志着中文指令微调数据集的进一步完善,为中文语言模型的训练和评估提供了丰富的资源。该数据集的出现不仅填补了中文指令数据集的空白,还为中文自然语言处理研究提供了新的方向,推动了中文语言模型在复杂任务中的表现提升。
当前挑战
belle_cn数据集在构建和应用过程中面临多重挑战。首先,中文语言的多义性和复杂性使得指令生成和标注的准确性难以保证,尤其是在数学推理和对话任务中,语义的精确表达至关重要。其次,数据集的规模庞大,如何确保数据的多样性和质量成为一大难题,尤其是在自动化生成过程中,避免重复和低质量数据的混入。此外,中文指令微调任务的研究尚处于早期阶段,如何设计有效的评估指标以衡量模型在复杂任务中的表现,仍需进一步探索。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和优化提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,belle_cn数据集广泛应用于中文指令微调任务,尤其是在通用指令、数学推理和对话生成等场景中。其丰富的语料库为模型提供了多样化的训练样本,使得模型能够更好地理解和生成符合中文语境的自然语言。该数据集的高质量标注和广泛覆盖的领域使其成为中文NLP研究中的重要资源。
实际应用
在实际应用中,belle_cn数据集被广泛用于智能客服、教育辅助系统和自动化问答系统等领域。其丰富的对话和指令数据使得模型能够在实际场景中提供更加精准和自然的交互体验。例如,在教育领域,基于该数据集训练的模型能够帮助学生解答数学问题,并提供个性化的学习建议。
衍生相关工作
belle_cn数据集的推出催生了一系列相关研究工作,特别是在中文指令微调和多任务学习领域。许多研究团队基于该数据集开发了新的模型架构和训练方法,进一步提升了中文NLP模型的性能。此外,该数据集还被用于跨语言迁移学习的研究,推动了多语言模型的统一化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作