five

lorinma/EvolInstruct_zh_COIG-PC_Deepseek

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/EvolInstruct_zh_COIG-PC_Deepseek
下载链接
链接失效反馈
官方服务:
资源简介:
COIG-PC数据集包含多种中文NLP任务,类似于FLAN。作者结合了COIG-PC和EvolInstruction生成了一些数据。数据集中包括经过过滤的COIG-pc-Lite种子任务文件、基于H2O EvolInstruction的代码文件以及生成的数据文件。
提供机构:
lorinma
原始信息汇总

数据集概述

数据集描述

该数据集旨在填补中文世界在类似FLAN和Orca工作方面的空白,结合COIG-PC和EvolInstruction方法生成数据。

数据集组成

数据集包含以下三个文件:

  1. 0227_COIG_seed_tasks_CoarseFilter_1106_adjusted.json:使用COIG-pc-Lite,每个任务抽取一条,过滤掉多语言任务(仅保留中英文),形成1106条种子任务。
  2. evolve_chinese.py:基于H2O EvolInstruction的代码。
  3. 0227_EvolInstruct-COIG:生成的6680条数据。

数据生成

数据集使用DeepSeek赠送的1000万token,生成了5000条数据,约使用600万token。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作