five

Xilabs/instructmix

收藏
Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Xilabs/instructmix
下载链接
链接失效反馈
官方服务:
资源简介:
InstructMix是一个多功能的指令微调数据集,适用于微调大型语言模型的指令跟随能力。数据集包含了多种指令相关的任务和来源,格式为Alpaca格式。数据集提供了多个分割版本,每个版本都包含了来自不同数据集的样本混合。数据集的主要来源包括Alpaca_GPT4、dolly 2.0和Code Alpaca。数据集的大小从15,000到87,039个样本不等,适用于不同规模的训练需求。
提供机构:
Xilabs
原始信息汇总

数据集概述

数据集名称

  • InstructMix

数据集特征

  • output: 字符串类型
  • instruction: 字符串类型
  • input: 字符串类型
  • source: 字符串类型

数据集分割

  • instructmix_15k: 15,000个样本,10,498,076字节
  • instructmix_30k: 30,000个样本,21,008,700字节
  • instructmix_50k: 50,000个样本,34,872,601字节
  • instructmix_15k_balanced: 15,000个样本,9,550,701字节
  • instructmix_30k_balanced: 30,000个样本,19,149,564字节
  • instructmix_all: 87,039个样本,59,355,817字节

数据集大小

  • 下载大小: 94,447,900字节
  • 数据集大小: 154,435,459字节

语言

  • en

标签

  • instruction-finetuning

任务类别

  • text-generation

大小类别

  • 10K<n<100K

包含的数据集

  • Alpaca_GPT4: 52,002个样本,通用指令
  • dolly 2.0: 15,015个样本,封闭QA、总结等(维基百科)
  • Code Alpaca: 20,022个样本,代码生成、编辑、优化

数据集分割详情

  • instructmix_15k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
  • instructmix_30k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
  • instructmix_50k: 40% Alpaca_GPT4, 40% dolly 2.0, 20% Code Alpaca
  • instructmix_15k_balanced: 等量分布
  • instructmix_30k_balanced: 等量分布
  • instructmix_all: 所有可用样本

模型训练

  • Xilabs/instructmix-llama-3b
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作