Xilabs/instructmix

Name: Xilabs/instructmix
Creator: Xilabs
Published: 2023-08-08 06:33:51
License: 暂无描述

Hugging Face2023-08-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Xilabs/instructmix

下载链接

链接失效反馈

官方服务：

资源简介：

InstructMix是一个多功能的指令微调数据集，适用于微调大型语言模型的指令跟随能力。数据集包含了多种指令相关的任务和来源，格式为Alpaca格式。数据集提供了多个分割版本，每个版本都包含了来自不同数据集的样本混合。数据集的主要来源包括Alpaca_GPT4、dolly 2.0和Code Alpaca。数据集的大小从15,000到87,039个样本不等，适用于不同规模的训练需求。

提供机构：

Xilabs

原始信息汇总

数据集概述

数据集名称

InstructMix

数据集特征

output: 字符串类型
instruction: 字符串类型
input: 字符串类型
source: 字符串类型

数据集分割

instructmix_15k: 15,000个样本，10,498,076字节
instructmix_30k: 30,000个样本，21,008,700字节
instructmix_50k: 50,000个样本，34,872,601字节
instructmix_15k_balanced: 15,000个样本，9,550,701字节
instructmix_30k_balanced: 30,000个样本，19,149,564字节
instructmix_all: 87,039个样本，59,355,817字节

数据集大小

下载大小: 94,447,900字节
数据集大小: 154,435,459字节

语言

任务类别

text-generation

大小类别

10K<n<100K

包含的数据集

Alpaca_GPT4: 52,002个样本，通用指令
dolly 2.0: 15,015个样本，封闭QA、总结等（维基百科）
Code Alpaca: 20,022个样本，代码生成、编辑、优化

数据集分割详情

instructmix_15k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
instructmix_30k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
instructmix_50k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
instructmix_15k_balanced: 等量分布
instructmix_30k_balanced: 等量分布
instructmix_all: 所有可用样本

模型训练

Xilabs/instructmix-llama-3b

5,000+

优质数据集

54 个

任务类型

进入经典数据集