shizhediao/lmflow-sft
收藏Hugging Face2024-07-07 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/shizhediao/lmflow-sft
下载链接
链接失效反馈官方服务:
资源简介:
`lmflow-sft`数据集是一个用于训练`lmflow`模型的数据集集合。该数据集包含了来自11个不同数据集的3.45M个实例。数据集与`lmflow`兼容,可以直接用于`lmflow`的训练工作流。
The `lmflow-sft` dataset is a collection of datasets used for training the `lmflow` model. The dataset contains 3.45M instances from 11 different datasets. It is compatible with `lmflow` and can be directly used for the training workflow in `lmflow`.
提供机构:
shizhediao
原始信息汇总
lmflow-sft 数据集概述
简介
lmflow-sft 数据集是一个用于训练 lmflow 模型的数据集合。该数据集包含来自 11 个不同数据集的 3.45M 个实例。该数据集与 lmflow dataset 兼容,可以直接用于 lmflow finetuning 的训练流程。
统计信息
| 来源数据集 | 数量 |
|---|---|
| Daring-Anteater | 100K |
| Open Assistant 2 | 56K |
| Magicoder-Evol-Instruct | 110K |
| WizardLM_evol_instruct_v2 | 196K |
| SlimOrca | 518K |
| MathInstruct | 262K |
| GPT4-LLM | 54.6K |
| GPTeacher | 89.3K |
| UltraInteract | 289K |
| UltraChat | 774K |
| OpenHermes2.5 | 1M |
| 总计 | 3.45M |



