Locutusque/InstructMix-V2
收藏Hugging Face2023-12-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/InstructMix-V2
下载链接
链接失效反馈官方服务:
资源简介:
InstructMix-V2数据集是一个包含指令数据的集合,每个条目都有输入和输出字段。数据集由多个现有数据集组合而成,涵盖了广泛的领域,适用于多种NLP任务,包括文本生成、文本完成、翻译、摘要等。数据集包含13,639,348个样本,主要语言为英语。
InstructMix-V2数据集是一个包含指令数据的集合,每个条目都有输入和输出字段。数据集由多个现有数据集组合而成,涵盖了广泛的领域,适用于多种NLP任务,包括文本生成、文本完成、翻译、摘要等。数据集包含13,639,348个样本,主要语言为英语。
提供机构:
Locutusque
原始信息汇总
数据集概述
数据集名称: InstructMix-V2
数据集简介: InstructMix-V2 是 InstructMix 的新改进版本,包含近两倍数量的示例。
数据集内容: 该数据集包含一系列指令数据及其相应的输入和输出。每个条目都有一个“Input”字段,包含指令内容,以及一个“Output”字段,表示相应的响应或完成。使用的数据集包括:
- Locutusque/ColumnedChatCombined
- TokenBender/code_instructions_120k_alpaca_style
- Open-Orca/OpenOrca
- vicgalle/alpaca-gpt4
- ChristophSchuhmann/essays-with-instructions
- checkai/instruction-poems
- pubmed_qa
- BI55/MedText
- nampdn-ai/tiny-codes
- TIGER-Lab/MathInstruct
- garage-bAInd/Open-Platypus
- KnutJaegersberg/WizardLM_evol_instruct_V2_196k_instruct_format
- teknium/openhermes
- ssbuild/ultrachat
数据集包含以下两列:
- Input (字符串)
- Output (字符串)
数据集组成:
- 样本数量:13,639,348
- 语言:英语
使用场景: InstructMix 数据集适用于多种自然语言处理任务,包括文本生成、文本完成、翻译、摘要等。它可用于训练和评估语言模型、代码生成模型及其他基于 NLP 的应用。
数据集创建: InstructMix 数据集通过合并多个现有指令数据集并添加元数据以促进无缝集成而创建。内容涵盖多个领域,并从可信数据集和公共来源获取。
许可证: 请确保阅读并遵守该数据集中包含的数据集的许可协议,因为某些数据集可能包含必须遵循的特定规则。



