five

Locutusque/InstructMix-V2

收藏
Hugging Face2023-12-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/InstructMix-V2
下载链接
链接失效反馈
官方服务:
资源简介:
InstructMix-V2数据集是一个包含指令数据的集合,每个条目都有输入和输出字段。数据集由多个现有数据集组合而成,涵盖了广泛的领域,适用于多种NLP任务,包括文本生成、文本完成、翻译、摘要等。数据集包含13,639,348个样本,主要语言为英语。

InstructMix-V2数据集是一个包含指令数据的集合,每个条目都有输入和输出字段。数据集由多个现有数据集组合而成,涵盖了广泛的领域,适用于多种NLP任务,包括文本生成、文本完成、翻译、摘要等。数据集包含13,639,348个样本,主要语言为英语。
提供机构:
Locutusque
原始信息汇总

数据集概述

数据集名称: InstructMix-V2

数据集简介: InstructMix-V2 是 InstructMix 的新改进版本,包含近两倍数量的示例。

数据集内容: 该数据集包含一系列指令数据及其相应的输入和输出。每个条目都有一个“Input”字段,包含指令内容,以及一个“Output”字段,表示相应的响应或完成。使用的数据集包括:

  • Locutusque/ColumnedChatCombined
  • TokenBender/code_instructions_120k_alpaca_style
  • Open-Orca/OpenOrca
  • vicgalle/alpaca-gpt4
  • ChristophSchuhmann/essays-with-instructions
  • checkai/instruction-poems
  • pubmed_qa
  • BI55/MedText
  • nampdn-ai/tiny-codes
  • TIGER-Lab/MathInstruct
  • garage-bAInd/Open-Platypus
  • KnutJaegersberg/WizardLM_evol_instruct_V2_196k_instruct_format
  • teknium/openhermes
  • ssbuild/ultrachat

数据集包含以下两列:

  • Input (字符串)
  • Output (字符串)

数据集组成:

  • 样本数量:13,639,348
  • 语言:英语

使用场景: InstructMix 数据集适用于多种自然语言处理任务,包括文本生成、文本完成、翻译、摘要等。它可用于训练和评估语言模型、代码生成模型及其他基于 NLP 的应用。

数据集创建: InstructMix 数据集通过合并多个现有指令数据集并添加元数据以促进无缝集成而创建。内容涵盖多个领域,并从可信数据集和公共来源获取。

许可证: 请确保阅读并遵守该数据集中包含的数据集的许可协议,因为某些数据集可能包含必须遵循的特定规则。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作