lorinma/EvolInstruct_zh_COIG-PC_Deepseek
收藏Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/EvolInstruct_zh_COIG-PC_Deepseek
下载链接
链接失效反馈官方服务:
资源简介:
COIG-PC数据集包含多种中文NLP任务,类似于FLAN。作者结合了COIG-PC和EvolInstruction生成了一些数据。数据集中包括经过过滤的COIG-pc-Lite种子任务文件、基于H2O EvolInstruction的代码文件以及生成的数据文件。
提供机构:
lorinma
原始信息汇总
数据集概述
数据集描述
该数据集旨在填补中文世界在类似FLAN和Orca工作方面的空白,结合COIG-PC和EvolInstruction方法生成数据。
数据集组成
数据集包含以下三个文件:
- 0227_COIG_seed_tasks_CoarseFilter_1106_adjusted.json:使用COIG-pc-Lite,每个任务抽取一条,过滤掉多语言任务(仅保留中英文),形成1106条种子任务。
- evolve_chinese.py:基于H2O EvolInstruction的代码。
- 0227_EvolInstruct-COIG:生成的6680条数据。
数据生成
数据集使用DeepSeek赠送的1000万token,生成了5000条数据,约使用600万token。



