BNNT/mozi_general_instructions_3m
收藏Hugging Face2023-08-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BNNT/mozi_general_instructions_3m
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
Sources are listed below:
Chinese General Instruction 2000k BELLE https://huggingface.co/datasets/BelleGroup/train_2M_CN
English generic instruction 52k alpaca-gpt4 https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
Chinese generic dialog instructions 800k BELLE https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M
English Universal Dialog Instruction 94k sharegpt_vicuna https://huggingface.co/datasets/jeffwan/sharegpt_vicuna
Chinese-English-Japanese Universal Command 49k https://huggingface.co/datasets/JosephusCheung/GuanacoDataset/tree/main
提供机构:
BNNT
原始信息汇总
数据集概述
数据集来源及类型
- 中文通用指令数据集:包含200万条数据,来源于BELLE项目,链接为Chinese General Instruction 2000k BELLE。
- 英文通用指令数据集:包含5.2万条数据,来源于alpaca-gpt4项目,链接为English generic instruction 52k alpaca-gpt4。
- 中文通用对话指令数据集:包含80万条数据,来源于BELLE项目,链接为Chinese generic dialog instructions 800k BELLE。
- 英文通用对话指令数据集:包含9.4万条数据,来源于sharegpt_vicuna项目,链接为English Universal Dialog Instruction 94k sharegpt_vicuna。
- 中英日通用指令数据集:包含4.9万条数据,来源于JosephusCheung/GuanacoDataset项目,链接为Chinese-English-Japanese Universal Command 49k。
许可证
- 所有数据集均遵循Apache-2.0许可证。



