five

zhengr/COIG-CQIA

收藏
Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/zhengr/COIG-CQIA
下载链接
链接失效反馈
官方服务:
资源简介:
COIG-CQIA全称为**Chinese Open Instruction Generalist - Quality is All You Need**,是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供**高质量**且符合**人类交互行为**的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受*LIMA: Less Is More for Alignment*等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性。

COIG-CQIA全称为**Chinese Open Instruction Generalist - Quality is All You Need**,是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供**高质量**且符合**人类交互行为**的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受*LIMA: Less Is More for Alignment*等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性。
提供机构:
zhengr
原始信息汇总

数据集概述

数据集名称

COIG-CQIA:Quality is All You Need for Chinese Instruction Fine-tuning

数据集描述

COIG-CQIA是一个开源的高质量指令微调数据集,主要为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。数据来源于中文互联网的问答及文章,经过深度清洗、重构及人工审核构建而成。

数据集配置

  • config_name: 数据集配置名称
  • data_files: 数据文件列表
    • split: 数据分割类型(如train)
    • path: 数据文件路径

任务类别

  • 问答
  • 文本分类
  • 文本生成
  • 文本到文本生成

语言

  • 中文(zh)

数据集大小

  • 10K<n<100K

数据格式

json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }

数据字段

  • instruction: 指令或问题
  • input: 补充内容
  • output: 回答
  • task_type: 任务类型
  • domain: 领域
  • answer_from: 回答来源
  • human_verified: 是否经过人工验证
  • copyright: 版权信息

数据详情

  • 社交媒体&论坛: 总量13935条
  • 通用百科: 总量4571条
  • 通用NLP任务: 总量3000条
  • 考试&试题: 总量2897条
  • 人类价值观: 总量1007条
  • 中国传统文化: 总量503条
  • 金融&经管领域: 总量11289条
  • 医疗领域: 总量8537条
  • 法律领域: 总量2645条

使用建议

用户应注意数据集的风险、偏差和技术限制。

引用信息

bibtex @misc{bai2024coig, title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning}, author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others}, year={2024}, eprint={2403.18058}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
COIG-CQIA数据集的构建基于广泛的中文互联网资源,包括社交媒体、论坛、百科文章、考试试题等多个领域。数据经过多阶段的深度清洗、重构及人工审核,确保其高质量和多样性。具体而言,数据来源包括知乎、豆瓣、小红书等社交媒体平台,以及中国大百科全书、wikiHow中文等百科资源。每个数据集部分都经过规则清洗、人工验证,以确保数据的真实性和适用性。
使用方法
COIG-CQIA数据集适用于多种自然语言处理任务,包括指令微调、问答系统、文本分类和文本生成等。用户可以直接使用该数据集进行模型训练,以提升模型在中文环境下的表现。数据集的格式标准化,包含指令、输入、输出等字段,便于直接应用于各类NLP模型。此外,数据集还提供了详细的领域和任务类型标注,帮助用户更精准地选择和使用数据。
背景与挑战
背景概述
COIG-CQIA(Chinese Open Instruction Generalist - Quality is All You Need)数据集由零一万物、中科院深圳先进技术研究院和M-A-P等机构的研究者共同创建,旨在为中文自然语言处理(NLP)社区提供高质量的指令微调数据。该数据集的构建灵感来源于LIMA: Less Is More for Alignment等研究,强调通过少量高质量数据实现大语言模型的人类交互行为学习。COIG-CQIA数据集涵盖了从中文互联网获取的问答和文章,经过深度清洗、重构和人工审核,确保数据的多样性和质量。自2024年发布以来,该数据集已成为中文NLP领域的重要资源,推动了指令微调技术的发展。
当前挑战
COIG-CQIA数据集在构建过程中面临多项挑战。首先,数据来源的多样性要求严格的清洗和筛选流程,以确保数据质量。其次,人工审核的引入增加了数据集构建的时间和成本。此外,数据集的多样性也带来了标注一致性和领域适应性的问题。在应用层面,如何有效利用少量高质量数据进行模型训练,以实现高效且准确的指令微调,是当前研究的主要挑战。未来,数据集的更新和扩展也需要持续关注,以适应NLP技术的快速发展和应用需求的变化。
常用场景
经典使用场景
COIG-CQIA数据集的经典使用场景主要集中在指令微调领域,旨在训练模型以响应中文指令。通过提供高质量的中文问答和文章数据,该数据集能够帮助模型学习人类交互行为,从而在问答、文本分类、文本生成和文本到文本生成等任务中表现出色。
解决学术问题
COIG-CQIA数据集解决了中文自然语言处理领域中高质量指令数据稀缺的问题。通过提供经过深度清洗和人工审核的数据,该数据集显著提升了模型在理解和生成中文指令方面的能力,为学术研究提供了宝贵的资源,推动了中文NLP技术的发展。
实际应用
在实际应用中,COIG-CQIA数据集被广泛用于开发智能助手、聊天机器人和内容生成系统。这些应用需要模型能够准确理解和响应中文指令,从而提供高效的用户交互体验。此外,该数据集还支持在教育、医疗和金融等领域的专业应用,提升了这些领域中自然语言处理技术的实用性和可靠性。
数据集最近研究
最新研究方向
在自然语言处理领域,COIG-CQIA数据集的最新研究方向主要集中在提升中文大语言模型的指令遵循能力和交互质量。研究者们通过引入高质量的中文指令数据,探索如何在有限的资源下最大化模型的学习效果。这一方向的研究不仅有助于提升模型的性能,还能更好地模拟人类交互行为,从而在问答、文本分类和文本生成等任务中实现更精准的应用。此外,随着数据集的不断扩展和优化,未来的研究还将关注如何在多领域和多任务场景下实现更高效的模型微调,以应对日益复杂的实际应用需求。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作