channelcorp/KoMagpie-raw
收藏Hugging Face2024-09-23 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/channelcorp/KoMagpie-raw
下载链接
链接失效反馈官方服务:
资源简介:
KoMagpie-raw-preview是KoMagpie数据集的第一个预览版本,主要包含韩语的指令、输出和模型信息。数据集的特征包括instruction(指令)、output(输出)和model(模型)三个字段。数据集的分割信息显示,训练集包含2569865个示例,大小为3720289639字节。数据集的开发过程包括使用BOS令牌生成指令数据、去重以及使用开放的大型语言模型生成输出部分。数据集的许可证信息包括Qwen/Qwen2-72B-Instruct和LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct的许可证。此外,该数据集并非Channel Corp官方支持的产品,研究得到了TPU Research Cloud项目的支持。
The KoMagpie-raw-preview dataset is a preview version containing Korean instructions, outputs, and model information. The dataset is divided into a training set with 2,569,865 samples. The development process follows the Magpie method, using the LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct model to generate the instruction part and the Qwen/Qwen2-72B-Instruct model to generate the output part. The datasets licensing information includes the licenses for Qwen/Qwen2-72B-Instruct and LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.
提供机构:
channelcorp



