Xilabs/instructmix
收藏Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Xilabs/instructmix
下载链接
链接失效反馈官方服务:
资源简介:
InstructMix是一个多功能的指令微调数据集,适用于微调大型语言模型的指令跟随能力。数据集包含了多种指令相关的任务和来源,格式为Alpaca格式。数据集提供了多个分割版本,每个版本都包含了来自不同数据集的样本混合。数据集的主要来源包括Alpaca_GPT4、dolly 2.0和Code Alpaca。数据集的大小从15,000到87,039个样本不等,适用于不同规模的训练需求。
提供机构:
Xilabs
原始信息汇总
数据集概述
数据集名称
- InstructMix
数据集特征
- output: 字符串类型
- instruction: 字符串类型
- input: 字符串类型
- source: 字符串类型
数据集分割
- instructmix_15k: 15,000个样本,10,498,076字节
- instructmix_30k: 30,000个样本,21,008,700字节
- instructmix_50k: 50,000个样本,34,872,601字节
- instructmix_15k_balanced: 15,000个样本,9,550,701字节
- instructmix_30k_balanced: 30,000个样本,19,149,564字节
- instructmix_all: 87,039个样本,59,355,817字节
数据集大小
- 下载大小: 94,447,900字节
- 数据集大小: 154,435,459字节
语言
- en
标签
- instruction-finetuning
任务类别
- text-generation
大小类别
- 10K<n<100K
包含的数据集
- Alpaca_GPT4: 52,002个样本,通用指令
- dolly 2.0: 15,015个样本,封闭QA、总结等(维基百科)
- Code Alpaca: 20,022个样本,代码生成、编辑、优化
数据集分割详情
- instructmix_15k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
- instructmix_30k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
- instructmix_50k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
- instructmix_15k_balanced: 等量分布
- instructmix_30k_balanced: 等量分布
- instructmix_all: 所有可用样本
模型训练
- Xilabs/instructmix-llama-3b



