zhengr/COIG-CQIA

Name: zhengr/COIG-CQIA
Creator: zhengr
Published: 2024-04-25 10:54:57
License: 暂无描述

Hugging Face2024-04-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/zhengr/COIG-CQIA

下载链接

链接失效反馈

官方服务：

资源简介：

COIG-CQIA全称为**Chinese Open Instruction Generalist - Quality is All You Need**，是一个开源的高质量指令微调数据集，旨在为中文NLP社区提供**高质量**且符合**人类交互行为**的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据，经过深度清洗、重构及人工审核构建而成。本项目受*LIMA: Less Is More for Alignment*等研究启发，使用少量高质量的数据即可让大语言模型学习到人类交互行为，因此在数据构建中我们十分注重数据的来源、质量与多样性。

提供机构：

zhengr

原始信息汇总

数据集概述

数据集名称

COIG-CQIA：Quality is All You Need for Chinese Instruction Fine-tuning

数据集描述

COIG-CQIA是一个开源的高质量指令微调数据集，主要为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。数据来源于中文互联网的问答及文章，经过深度清洗、重构及人工审核构建而成。

数据集配置

config_name: 数据集配置名称
data_files: 数据文件列表
- split: 数据分割类型（如train）
- path: 数据文件路径

任务类别

问答
文本分类
文本生成
文本到文本生成

语言

中文（zh）

数据集大小

10K<n<100K

数据格式

json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }

数据字段

instruction: 指令或问题
input: 补充内容
output: 回答
task_type: 任务类型
domain: 领域
answer_from: 回答来源
human_verified: 是否经过人工验证
copyright: 版权信息

数据详情

社交媒体&论坛: 总量13935条
通用百科: 总量4571条
通用NLP任务: 总量3000条
考试&试题: 总量2897条
人类价值观: 总量1007条
中国传统文化: 总量503条
金融&经管领域: 总量11289条
医疗领域: 总量8537条
法律领域: 总量2645条

使用建议

用户应注意数据集的风险、偏差和技术限制。

引用信息

bibtex @misc{bai2024coig, title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning}, author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others}, year={2024}, eprint={2403.18058}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

COIG-CQIA数据集的构建基于广泛的中文互联网资源，包括社交媒体、论坛、百科文章、考试试题等多个领域。数据经过多阶段的深度清洗、重构及人工审核，确保其高质量和多样性。具体而言，数据来源包括知乎、豆瓣、小红书等社交媒体平台，以及中国大百科全书、wikiHow中文等百科资源。每个数据集部分都经过规则清洗、人工验证，以确保数据的真实性和适用性。

使用方法

COIG-CQIA数据集适用于多种自然语言处理任务，包括指令微调、问答系统、文本分类和文本生成等。用户可以直接使用该数据集进行模型训练，以提升模型在中文环境下的表现。数据集的格式标准化，包含指令、输入、输出等字段，便于直接应用于各类NLP模型。此外，数据集还提供了详细的领域和任务类型标注，帮助用户更精准地选择和使用数据。

背景与挑战

背景概述

COIG-CQIA（Chinese Open Instruction Generalist - Quality is All You Need）数据集由零一万物、中科院深圳先进技术研究院和M-A-P等机构的研究者共同创建，旨在为中文自然语言处理（NLP）社区提供高质量的指令微调数据。该数据集的构建灵感来源于LIMA: Less Is More for Alignment等研究，强调通过少量高质量数据实现大语言模型的人类交互行为学习。COIG-CQIA数据集涵盖了从中文互联网获取的问答和文章，经过深度清洗、重构和人工审核，确保数据的多样性和质量。自2024年发布以来，该数据集已成为中文NLP领域的重要资源，推动了指令微调技术的发展。

当前挑战

COIG-CQIA数据集在构建过程中面临多项挑战。首先，数据来源的多样性要求严格的清洗和筛选流程，以确保数据质量。其次，人工审核的引入增加了数据集构建的时间和成本。此外，数据集的多样性也带来了标注一致性和领域适应性的问题。在应用层面，如何有效利用少量高质量数据进行模型训练，以实现高效且准确的指令微调，是当前研究的主要挑战。未来，数据集的更新和扩展也需要持续关注，以适应NLP技术的快速发展和应用需求的变化。

常用场景

经典使用场景

COIG-CQIA数据集的经典使用场景主要集中在指令微调领域，旨在训练模型以响应中文指令。通过提供高质量的中文问答和文章数据，该数据集能够帮助模型学习人类交互行为，从而在问答、文本分类、文本生成和文本到文本生成等任务中表现出色。

解决学术问题

COIG-CQIA数据集解决了中文自然语言处理领域中高质量指令数据稀缺的问题。通过提供经过深度清洗和人工审核的数据，该数据集显著提升了模型在理解和生成中文指令方面的能力，为学术研究提供了宝贵的资源，推动了中文NLP技术的发展。

实际应用

在实际应用中，COIG-CQIA数据集被广泛用于开发智能助手、聊天机器人和内容生成系统。这些应用需要模型能够准确理解和响应中文指令，从而提供高效的用户交互体验。此外，该数据集还支持在教育、医疗和金融等领域的专业应用，提升了这些领域中自然语言处理技术的实用性和可靠性。

数据集最近研究