m-a-p/COIG-CQIA

Name: m-a-p/COIG-CQIA
Creator: m-a-p
Published: 2024-04-18 12:10:58
License: 暂无描述

Hugging Face2024-04-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/m-a-p/COIG-CQIA

下载链接

链接失效反馈

官方服务：

资源简介：

COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need，是一个开源的高质量指令微调数据集，旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。数据集以中文互联网获取到的问答及文章作为原始数据，经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发，使用少量高质量的数据即可让大语言模型学习到人类交互行为，因此在数据构建中我们十分注重数据的来源、质量与多样性。数据集包含多个子集，如社交媒体&论坛、通用百科、通用NLP任务、考试&试题、人类价值观、中国传统文化、金融&经管领域、医疗领域和法律领域等。每个子集都有详细的数量、来源和构造方式说明。数据集适用于指令微调，训练模型具备响应指令的能力。

COIG-CQIA, whose full name is Chinese Open Instruction Generalist - Quality is All You Need, is an open-source high-quality instruction tuning dataset. It aims to provide high-quality, human-interaction-aligned instruction tuning data for the Chinese NLP community. The dataset is constructed using raw data consisting of question-answer pairs and articles collected from Chinese internet sources, followed by deep cleaning, restructuring, and manual review. This project is inspired by research including *LIMA: Less Is More for Alignment*, which proves that large language models (LLMs) can acquire human interaction capabilities using only a small volume of high-quality data. Therefore, great emphasis is placed on the source, quality, and diversity of data throughout the dataset construction process. The dataset includes multiple subsets, such as social media & forums, general encyclopedias, general NLP tasks, examinations & test questions, human values, Chinese traditional culture, finance & economics, medical domain, and legal domain. Each subset provides detailed descriptions of its size, source, and construction method. This dataset is intended for instruction tuning, to equip trained models with the capability of responding to user instructions.

提供机构：

m-a-p

原始信息汇总

数据集概述

数据集名称： COIG-CQIA

全称： Chinese Open Instruction Generalist - Quality is All You Need

目的： 提供高质量的中文指令微调数据集，旨在帮助中文NLP社区训练模型以响应指令。

数据来源： 主要来源于中文互联网的问答及文章。

数据处理： 数据经过深度清洗、重构及人工审核。

语言： 中文

数据集大小： 10K<n<100K

任务类别：

问答
文本分类
文本生成
文本到文本生成

数据详情

数据格式

json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }

数据字段

instruction: 指令或问题。
input: 问题或指令的补充内容。
output: 对应的回答。
task_type: 任务类型。
domain: 领域分类。
answer_from: 回答来源（人类或模型）。
human_verified: 是否经过人工验证。
copyright: 版权信息。

数据分类及数量

社交媒体&论坛：总量13935条
- 知乎：8837条
- 豆瓣：3132条
- 小红书：1508条
- Segmentfault：458条
通用百科：总量4571条
- 百科文章：980条
- 中国大百科全书：1706条
- wikiHow中文：1876条
通用NLP任务：总量3000条
- COIG-PC-Core：3000条
考试&试题：总量2897条
- 高考&中考：2000条
- 研究生入学考试：475条
- 逻辑推理题：422条
人类价值观：总量1007条
- 100poison：906条
- COIG-human-value：101条
中国传统文化：总量503条
- 中华传统文化试题：232条
- 成语释义：112条
- 古诗词撰写：47条
- 文言文互译：112条
金融&经管领域：总量11289条
- MBA百科：10689条
- 金融NLP任务：600条
医疗领域：总量8537条
- 医疗百科：8351条
- 医疗文章：186条
法律领域：总量2645条
- 法律研究生入学考试：2645条

使用建议

用户应注意数据集的风险、偏差和技术限制。

搜集汇总

数据集介绍

构建方式

COIG-CQIA数据集的构建过程严谨而细致，主要从中文互联网的问答和文章中提取原始数据，经过多阶段的深度清洗、重构及人工审核，确保数据的高质量和多样性。数据集的构建受到*LIMA: Less Is More for Alignment*等研究的启发，强调使用少量但高质量的数据来训练大语言模型，使其能够更好地模拟人类交互行为。

使用方法

COIG-CQIA数据集适用于多种NLP任务，包括问答、文本分类、文本生成和文本到文本生成。用户可以直接使用该数据集进行指令微调，训练模型以响应各种指令。数据集的格式清晰，包含指令、输入、输出、任务类型、领域、回答来源、人类验证和版权信息等字段，便于用户进行数据处理和模型训练。建议用户在使用前详细阅读数据集的README文件，以充分利用其丰富的信息和高质量的数据。

背景与挑战

背景概述

COIG-CQIA（Chinese Open Instruction Generalist - Quality is All You Need）数据集由零一万物、中科院深圳先进技术研究院和M-A-P等机构的研究者共同创建，旨在为中文自然语言处理（NLP）社区提供高质量的指令微调数据。该数据集的构建受到LIMA: Less Is More for Alignment等研究的启发，强调使用少量高质量数据即可让大语言模型学习到人类交互行为。COIG-CQIA数据集涵盖了多种任务类型，包括问答、文本分类、文本生成和文本到文本生成，主要语言为中文，数据量在10K到100K之间。该数据集的创建不仅提升了中文NLP模型的训练质量，还为相关领域的研究提供了宝贵的资源。

当前挑战

COIG-CQIA数据集在构建过程中面临多项挑战。首先，数据来源的多样性要求对不同来源的数据进行深度清洗和重构，以确保数据质量的一致性。其次，人工审核的引入虽然提高了数据的可信度，但也增加了数据处理的复杂性和成本。此外，数据集的多样性虽然丰富了训练样本，但也带来了数据不平衡的问题，需要在模型训练时进行特殊处理。最后，数据集的版权和使用限制也是一个重要的挑战，确保数据使用的合法性和合规性是数据集长期可持续发展的关键。

常用场景

经典使用场景

COIG-CQIA数据集的经典使用场景主要集中在指令微调领域，旨在通过高质量的中文数据训练模型，使其能够准确理解和响应各种指令。该数据集特别适用于开发能够处理复杂中文指令的智能助手、问答系统和文本生成模型。通过使用COIG-CQIA，研究人员和开发者可以显著提升模型在中文环境下的交互能力和响应质量。

解决学术问题

COIG-CQIA数据集解决了中文自然语言处理领域中高质量指令数据稀缺的问题。传统上，中文NLP模型在处理复杂指令时往往表现不佳，部分原因在于缺乏高质量、多样化的训练数据。COIG-CQIA通过精心筛选和人工审核，提供了丰富且高质量的中文指令数据，有助于提升模型的指令理解和生成能力，推动中文NLP技术的发展。

实际应用

在实际应用中，COIG-CQIA数据集被广泛用于开发和优化中文智能助手、客服系统和教育辅导工具。例如，在智能客服领域，使用该数据集训练的模型能够更准确地理解用户查询并提供有效解答；在教育辅导工具中，模型可以根据学生的指令生成个性化的学习内容。这些应用显著提升了用户体验和服务效率。

数据集最近研究