m-a-p/COIG-CQIA|自然语言处理数据集|数据质量数据集

hugging_face2024-04-18 更新2024-03-04 收录

自然语言处理

数据质量

下载链接：

https://hf-mirror.com/datasets/m-a-p/COIG-CQIA

下载链接

链接失效反馈

资源简介：

COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need，是一个开源的高质量指令微调数据集，旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。数据集以中文互联网获取到的问答及文章作为原始数据，经过深度清洗、重构及人工审核构建而成。本项目受LIMA: Less Is More for Alignment等研究启发，使用少量高质量的数据即可让大语言模型学习到人类交互行为，因此在数据构建中我们十分注重数据的来源、质量与多样性。数据集包含多个子集，如社交媒体&论坛、通用百科、通用NLP任务、考试&试题、人类价值观、中国传统文化、金融&经管领域、医疗领域和法律领域等。每个子集都有详细的数量、来源和构造方式说明。数据集适用于指令微调，训练模型具备响应指令的能力。

提供机构：

m-a-p

原始信息汇总

数据集概述

数据集名称： COIG-CQIA

全称： Chinese Open Instruction Generalist - Quality is All You Need

目的： 提供高质量的中文指令微调数据集，旨在帮助中文NLP社区训练模型以响应指令。

数据来源： 主要来源于中文互联网的问答及文章。

数据处理： 数据经过深度清洗、重构及人工审核。

语言： 中文

数据集大小： 10K<n<100K

任务类别：

问答
文本分类
文本生成
文本到文本生成

数据详情

数据格式

json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }

数据字段

instruction: 指令或问题。
input: 问题或指令的补充内容。
output: 对应的回答。
task_type: 任务类型。
domain: 领域分类。
answer_from: 回答来源（人类或模型）。
human_verified: 是否经过人工验证。
copyright: 版权信息。

数据分类及数量

社交媒体&论坛：总量13935条
- 知乎：8837条
- 豆瓣：3132条
- 小红书：1508条
- Segmentfault：458条
通用百科：总量4571条
- 百科文章：980条
- 中国大百科全书：1706条
- wikiHow中文：1876条
通用NLP任务：总量3000条
- COIG-PC-Core：3000条
考试&试题：总量2897条
- 高考&中考：2000条
- 研究生入学考试：475条
- 逻辑推理题：422条
人类价值观：总量1007条
- 100poison：906条
- COIG-human-value：101条
中国传统文化：总量503条
- 中华传统文化试题：232条
- 成语释义：112条
- 古诗词撰写：47条
- 文言文互译：112条
金融&经管领域：总量11289条
- MBA百科：10689条
- 金融NLP任务：600条
医疗领域：总量8537条
- 医疗百科：8351条
- 医疗文章：186条
法律领域：总量2645条
- 法律研究生入学考试：2645条

使用建议

用户应注意数据集的风险、偏差和技术限制。

AI搜集汇总

数据集介绍

构建方式

COIG-CQIA数据集的构建过程严谨而细致，主要从中文互联网的问答和文章中提取原始数据，经过多阶段的深度清洗、重构及人工审核，确保数据的高质量和多样性。数据集的构建受到*LIMA: Less Is More for Alignment*等研究的启发，强调使用少量但高质量的数据来训练大语言模型，使其能够更好地模拟人类交互行为。

使用方法

COIG-CQIA数据集适用于多种NLP任务，包括问答、文本分类、文本生成和文本到文本生成。用户可以直接使用该数据集进行指令微调，训练模型以响应各种指令。数据集的格式清晰，包含指令、输入、输出、任务类型、领域、回答来源、人类验证和版权信息等字段，便于用户进行数据处理和模型训练。建议用户在使用前详细阅读数据集的README文件，以充分利用其丰富的信息和高质量的数据。

背景与挑战

背景概述

COIG-CQIA（Chinese Open Instruction Generalist - Quality is All You Need）数据集由零一万物、中科院深圳先进技术研究院和M-A-P等机构的研究者共同创建，旨在为中文自然语言处理（NLP）社区提供高质量的指令微调数据。该数据集的构建受到LIMA: Less Is More for Alignment等研究的启发，强调使用少量高质量数据即可让大语言模型学习到人类交互行为。COIG-CQIA数据集涵盖了多种任务类型，包括问答、文本分类、文本生成和文本到文本生成，主要语言为中文，数据量在10K到100K之间。该数据集的创建不仅提升了中文NLP模型的训练质量，还为相关领域的研究提供了宝贵的资源。

当前挑战

COIG-CQIA数据集在构建过程中面临多项挑战。首先，数据来源的多样性要求对不同来源的数据进行深度清洗和重构，以确保数据质量的一致性。其次，人工审核的引入虽然提高了数据的可信度，但也增加了数据处理的复杂性和成本。此外，数据集的多样性虽然丰富了训练样本，但也带来了数据不平衡的问题，需要在模型训练时进行特殊处理。最后，数据集的版权和使用限制也是一个重要的挑战，确保数据使用的合法性和合规性是数据集长期可持续发展的关键。

常用场景

经典使用场景

COIG-CQIA数据集的经典使用场景主要集中在指令微调领域，旨在通过高质量的中文数据训练模型，使其能够准确理解和响应各种指令。该数据集特别适用于开发能够处理复杂中文指令的智能助手、问答系统和文本生成模型。通过使用COIG-CQIA，研究人员和开发者可以显著提升模型在中文环境下的交互能力和响应质量。

解决学术问题

COIG-CQIA数据集解决了中文自然语言处理领域中高质量指令数据稀缺的问题。传统上，中文NLP模型在处理复杂指令时往往表现不佳，部分原因在于缺乏高质量、多样化的训练数据。COIG-CQIA通过精心筛选和人工审核，提供了丰富且高质量的中文指令数据，有助于提升模型的指令理解和生成能力，推动中文NLP技术的发展。

实际应用

在实际应用中，COIG-CQIA数据集被广泛用于开发和优化中文智能助手、客服系统和教育辅导工具。例如，在智能客服领域，使用该数据集训练的模型能够更准确地理解用户查询并提供有效解答；在教育辅导工具中，模型可以根据学生的指令生成个性化的学习内容。这些应用显著提升了用户体验和服务效率。

数据集最近研究

最新研究方向

在自然语言处理领域，COIG-CQIA数据集的最新研究方向主要集中在提升中文大语言模型的指令遵循能力和交互质量。研究者们通过深度清洗和人工审核，确保数据的高质量和多样性，从而使模型能够更好地理解和响应中文指令。此外，该数据集的应用也扩展到多个领域，如社交媒体分析、百科知识问答和金融文本处理，进一步推动了中文NLP技术在实际应用中的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。