five

COIG-CQIA|自然语言处理数据集|指令微调数据集

收藏
huggingface2024-04-18 更新2024-12-12 收录
自然语言处理
指令微调
下载链接:
https://huggingface.co/datasets/m-a-p/COIG-CQIA
下载链接
链接失效反馈
资源简介:
COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need,是一个开源的高质量指令微调数据集,由零一万物、中科院深圳先进技术研究院和M-A-P等机构构建。该数据集包含48,375个实例,源自22个不同的数据源,覆盖了从通用知识到STEM领域,再到人文学科的广泛领域。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。该数据集受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中十分注重数据的来源、质量与多样性。该数据集旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。

COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need,是一个开源的高质量指令微调数据集,由零一万物、中科院深圳先进技术研究院和M-A-P等机构构建。该数据集包含48,375个实例,源自22个不同的数据源,覆盖了从通用知识到STEM领域,再到人文学科的广泛领域。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。该数据集受LIMA: Less Is More for Alignment等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中十分注重数据的来源、质量与多样性。该数据集旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。
提供机构:
零一万物、中科院深圳先进技术研究院和M-A-P等
创建时间:
2023-12-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
COIG-CQIA数据集的构建过程体现了对数据质量的极致追求。该数据集以中文互联网中的问答和文章为基础,经过深度清洗、重构和人工审核,确保数据的准确性和多样性。数据来源广泛,涵盖了社交媒体、百科、考试试题、金融、医疗等多个领域,并通过多阶段的质量筛选和人工验证,确保每条数据的可靠性和实用性。数据构建过程中,研究者们借鉴了LIMA等研究的思想,强调通过少量高质量数据实现大语言模型的高效微调。
特点
COIG-CQIA数据集的特点在于其高质量和多样性。数据集涵盖了多个领域,包括社交媒体、百科、考试试题、金融、医疗等,确保了数据的广泛适用性。每条数据均经过人工审核,确保其符合人类交互行为的标准。此外,数据集中大部分回答由人类撰写,少部分由大模型生成并经过人工验证,进一步提升了数据的可信度。数据格式清晰,包含指令、输入、输出、任务类型、领域等多个字段,便于研究人员根据需求进行灵活使用。
使用方法
COIG-CQIA数据集适用于多种自然语言处理任务,如问答、文本分类、文本生成等。研究人员可以通过加载数据集中的不同配置文件,获取特定领域或任务类型的数据。数据格式为JSON,包含指令、输入、输出等字段,便于直接用于模型训练和评估。使用该数据集时,建议结合具体任务需求,选择合适的数据子集进行微调,以提升模型在特定领域的表现。此外,数据集中的人工验证字段可用于评估模型输出的可靠性,进一步提升模型的实用性。
背景与挑战
背景概述
COIG-CQIA数据集是由零一万物、中科院深圳先进技术研究院以及M-A-P等机构的研究者共同构建的高质量中文指令微调数据集。该数据集旨在为中文自然语言处理(NLP)社区提供符合人类交互行为的高质量指令微调数据,以提升大语言模型在中文环境下的表现。数据集构建灵感来源于《LIMA: Less Is More for Alignment》等研究,强调通过少量高质量数据实现模型的高效对齐。数据集涵盖了多个领域,包括社交媒体、百科、考试、金融、医疗等,数据来源广泛且经过深度清洗与人工审核,确保了数据的多样性与质量。
当前挑战
COIG-CQIA数据集在构建与应用过程中面临多重挑战。首先,数据质量的把控是关键,尽管数据经过深度清洗与人工审核,但中文互联网数据的噪声与不规范性仍可能影响模型训练效果。其次,数据多样性要求高,涵盖多个领域的数据需确保其代表性,避免领域偏差。此外,数据版权与伦理问题也需谨慎处理,确保数据来源合法且符合隐私保护要求。最后,如何在小规模高质量数据的基础上实现模型的高效对齐,仍需进一步探索与优化。
常用场景
经典使用场景
COIG-CQIA数据集广泛应用于中文自然语言处理领域,特别是在指令微调任务中。该数据集通过提供高质量的中文问答和文章数据,帮助研究人员训练模型以更好地理解和生成符合人类交互行为的指令响应。其多领域覆盖和深度清洗的特性,使其成为中文NLP模型微调的理想选择。
实际应用
在实际应用中,COIG-CQIA数据集被广泛用于智能客服、教育辅助系统和内容生成平台等领域。通过使用该数据集进行模型微调,智能客服系统能够更准确地理解用户指令并提供个性化服务;教育辅助系统则能够生成高质量的试题解析和学习建议;内容生成平台则能够创作出符合用户需求的多样化内容。
衍生相关工作
COIG-CQIA数据集衍生了一系列经典研究工作,如基于该数据集的中文大语言模型微调实验、多领域指令生成模型的开发以及中文NLP任务性能评估框架的构建。这些研究不仅验证了数据集的有效性,还进一步推动了中文NLP技术的创新和应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录