five

botp/COIG-CQIA

收藏
Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/botp/COIG-CQIA
下载链接
链接失效反馈
官方服务:
资源简介:
COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need,是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。数据集来源于中文互联网的问答及文章,经过深度清洗、重构及人工审核构建而成。数据集包含多个子集,如社交媒体&论坛、通用百科、通用NLP任务、考试&试题、人类价值观、中国传统文化、金融&经管领域、医疗领域和法律领域等。数据格式为JSON,包含instruction、input、output等字段。数据集适用于指令微调,训练模型具备响应指令的能力。

COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need,是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。数据集来源于中文互联网的问答及文章,经过深度清洗、重构及人工审核构建而成。数据集包含多个子集,如社交媒体&论坛、通用百科、通用NLP任务、考试&试题、人类价值观、中国传统文化、金融&经管领域、医疗领域和法律领域等。数据格式为JSON,包含instruction、input、output等字段。数据集适用于指令微调,训练模型具备响应指令的能力。
提供机构:
botp
原始信息汇总

数据集概述

数据集名称: COIG-CQIA

全称: Chinese Open Instruction Generalist - Quality is All You Need

目的: 提供高质量且符合人类交互行为的中文指令微调数据,旨在支持中文NLP社区。

数据来源: 中文互联网的问答及文章,经过深度清洗、重构及人工审核。

语言: 中文

数据集版本: v0.1

数据集组成

配置名称及数据文件:

  • chinese_traditional: 训练数据路径为 chinese_traditional/*
  • coig_pc: 训练数据路径为 coig_pc/*
  • exam: 训练数据路径为 exam/*
  • finance: 训练数据路径为 finance/*
  • douban: 训练数据路径为 douban/*
  • human_value: 训练数据路径为 human_value/*
  • logi_qa: 训练数据路径为 logi_qa/*
  • ruozhiba: 训练数据路径为 ruozhiba/*
  • segmentfault: 训练数据路径为 segmentfault/*
  • wiki: 训练数据路径为 wiki/*
  • wikihow: 训练数据路径为 wikihow/*
  • xhs: 训练数据路径为 xhs/*
  • zhihu: 训练数据路径为 zhihu/*

任务类别:

  • 问答
  • 文本分类
  • 文本生成
  • 文本到文本生成

数据集大小: 10K<n<100K

数据格式

json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }

数据详情

社交媒体&论坛:

  • 知乎: 8837条
  • 豆瓣: 3132条
  • 小红书: 1508条
  • Segmentfault: 458条
  • 总量: 13935条

通用百科:

  • 百科文章: 980条
  • 中国大百科全书: 1706条
  • wikiHow中文: 1876条
  • 总量: 4571条

通用NLP任务:

  • COIG-PC-Core: 3000条
  • 总量: 3000条

考试&试题:

  • 高考&中考: 2000条
  • 研究生入学考试: 475条
  • 逻辑推理题: 422条
  • 总量: 2897条

人类价值观:

  • 100poison: 906条
  • COIG-human-value: 101条
  • 总量: 1007条

中国传统文化:

  • 中华传统文化试题: 232条
  • 成语释义: 112条
  • 古诗词撰写: 47条
  • 文言文互译: 112条
  • 总量: 503条

金融&经管领域:

  • MBA百科: 10689条
  • 金融NLP任务: 600条
  • 总量: 11289条

医疗领域:

  • 医疗百科: 8351条
  • 医疗文章: 186条
  • 总量: 8537条

法律领域:

  • 法律研究生入学考试: 2645条
  • 总量: 2645条

使用建议

用户应意识到数据集存在的风险、偏见和技术限制。更多信息需进一步提供。

引用信息

bibtex @misc{bai2024coig, title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning}, author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others}, year={2024}, eprint={2403.18058}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作