five

zhengr/COIG-CQIA|中文NLP数据集|指令微调数据集

收藏
hugging_face2024-04-25 更新2024-06-12 收录
中文NLP
指令微调
下载链接:
https://hf-mirror.com/datasets/zhengr/COIG-CQIA
下载链接
链接失效反馈
资源简介:
COIG-CQIA全称为**Chinese Open Instruction Generalist - Quality is All You Need**,是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供**高质量**且符合**人类交互行为**的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受*LIMA: Less Is More for Alignment*等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性。

COIG-CQIA全称为**Chinese Open Instruction Generalist - Quality is All You Need**,是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供**高质量**且符合**人类交互行为**的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。本项目受*LIMA: Less Is More for Alignment*等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中我们十分注重数据的来源、质量与多样性。
提供机构:
zhengr
原始信息汇总

数据集概述

数据集名称

COIG-CQIA:Quality is All You Need for Chinese Instruction Fine-tuning

数据集描述

COIG-CQIA是一个开源的高质量指令微调数据集,主要为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。数据来源于中文互联网的问答及文章,经过深度清洗、重构及人工审核构建而成。

数据集配置

  • config_name: 数据集配置名称
  • data_files: 数据文件列表
    • split: 数据分割类型(如train)
    • path: 数据文件路径

任务类别

  • 问答
  • 文本分类
  • 文本生成
  • 文本到文本生成

语言

  • 中文(zh)

数据集大小

  • 10K<n<100K

数据格式

json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }

数据字段

  • instruction: 指令或问题
  • input: 补充内容
  • output: 回答
  • task_type: 任务类型
  • domain: 领域
  • answer_from: 回答来源
  • human_verified: 是否经过人工验证
  • copyright: 版权信息

数据详情

  • 社交媒体&论坛: 总量13935条
  • 通用百科: 总量4571条
  • 通用NLP任务: 总量3000条
  • 考试&试题: 总量2897条
  • 人类价值观: 总量1007条
  • 中国传统文化: 总量503条
  • 金融&经管领域: 总量11289条
  • 医疗领域: 总量8537条
  • 法律领域: 总量2645条

使用建议

用户应注意数据集的风险、偏差和技术限制。

引用信息

bibtex @misc{bai2024coig, title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning}, author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others}, year={2024}, eprint={2403.18058}, archivePrefix={arXiv}, primaryClass={cs.CL} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
COIG-CQIA数据集的构建基于广泛的中文互联网资源,包括社交媒体、论坛、百科文章、考试试题等多个领域。数据经过多阶段的深度清洗、重构及人工审核,确保其高质量和多样性。具体而言,数据来源包括知乎、豆瓣、小红书等社交媒体平台,以及中国大百科全书、wikiHow中文等百科资源。每个数据集部分都经过规则清洗、人工验证,以确保数据的真实性和适用性。
使用方法
COIG-CQIA数据集适用于多种自然语言处理任务,包括指令微调、问答系统、文本分类和文本生成等。用户可以直接使用该数据集进行模型训练,以提升模型在中文环境下的表现。数据集的格式标准化,包含指令、输入、输出等字段,便于直接应用于各类NLP模型。此外,数据集还提供了详细的领域和任务类型标注,帮助用户更精准地选择和使用数据。
背景与挑战
背景概述
COIG-CQIA(Chinese Open Instruction Generalist - Quality is All You Need)数据集由零一万物、中科院深圳先进技术研究院和M-A-P等机构的研究者共同创建,旨在为中文自然语言处理(NLP)社区提供高质量的指令微调数据。该数据集的构建灵感来源于LIMA: Less Is More for Alignment等研究,强调通过少量高质量数据实现大语言模型的人类交互行为学习。COIG-CQIA数据集涵盖了从中文互联网获取的问答和文章,经过深度清洗、重构和人工审核,确保数据的多样性和质量。自2024年发布以来,该数据集已成为中文NLP领域的重要资源,推动了指令微调技术的发展。
当前挑战
COIG-CQIA数据集在构建过程中面临多项挑战。首先,数据来源的多样性要求严格的清洗和筛选流程,以确保数据质量。其次,人工审核的引入增加了数据集构建的时间和成本。此外,数据集的多样性也带来了标注一致性和领域适应性的问题。在应用层面,如何有效利用少量高质量数据进行模型训练,以实现高效且准确的指令微调,是当前研究的主要挑战。未来,数据集的更新和扩展也需要持续关注,以适应NLP技术的快速发展和应用需求的变化。
常用场景
经典使用场景
COIG-CQIA数据集的经典使用场景主要集中在指令微调领域,旨在训练模型以响应中文指令。通过提供高质量的中文问答和文章数据,该数据集能够帮助模型学习人类交互行为,从而在问答、文本分类、文本生成和文本到文本生成等任务中表现出色。
解决学术问题
COIG-CQIA数据集解决了中文自然语言处理领域中高质量指令数据稀缺的问题。通过提供经过深度清洗和人工审核的数据,该数据集显著提升了模型在理解和生成中文指令方面的能力,为学术研究提供了宝贵的资源,推动了中文NLP技术的发展。
实际应用
在实际应用中,COIG-CQIA数据集被广泛用于开发智能助手、聊天机器人和内容生成系统。这些应用需要模型能够准确理解和响应中文指令,从而提供高效的用户交互体验。此外,该数据集还支持在教育、医疗和金融等领域的专业应用,提升了这些领域中自然语言处理技术的实用性和可靠性。
数据集最近研究
最新研究方向
在自然语言处理领域,COIG-CQIA数据集的最新研究方向主要集中在提升中文大语言模型的指令遵循能力和交互质量。研究者们通过引入高质量的中文指令数据,探索如何在有限的资源下最大化模型的学习效果。这一方向的研究不仅有助于提升模型的性能,还能更好地模拟人类交互行为,从而在问答、文本分类和文本生成等任务中实现更精准的应用。此外,随着数据集的不断扩展和优化,未来的研究还将关注如何在多领域和多任务场景下实现更高效的模型微调,以应对日益复杂的实际应用需求。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录