COIG-CQIA 高质量中文指令微调数据集
收藏超神经2024-04-12 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/30654
下载链接
链接失效反馈官方服务:
资源简介:
COIG-CQIA 全称为 Chinese Open Instruction Generalist – Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文 NLP 社区提供高质量且符合人类交互行为的指令微调数据。 COIG-CQIA 以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。
COIG-CQIA, whose full name is Chinese Open Instruction Generalist – Quality is All You Need, is an open-source high-quality instruction tuning dataset designed to provide high-quality instruction tuning data that aligns with human interactive behaviors for the Chinese natural language processing (NLP) community. It is constructed using raw Q&A pairs and articles sourced from Chinese internet platforms, and undergoes thorough data cleaning, restructuring and manual review during its development.
创建时间:
2024-04-07
搜集汇总
数据集介绍

背景与挑战
背景概述
COIG-CQIA是一个开源的高质量中文指令微调数据集,全称为Chinese Open Instruction Generalist – Quality is All You Need,旨在为中文NLP社区提供符合人类交互行为的指令微调数据。该数据集从中文互联网的多个来源(如问答社区、维基平台、考试资料和现有NLP数据集)收集原始数据,经过深度清洗、重构和人工审核,注重数据的质量、多样性和真实交互模式,适用于大语言模型的训练和微调。
以上内容由遇见数据集搜集并总结生成



