botp/COIG-CQIA
收藏数据集概述
数据集名称: COIG-CQIA
全称: Chinese Open Instruction Generalist - Quality is All You Need
目的: 提供高质量且符合人类交互行为的中文指令微调数据,旨在支持中文NLP社区。
数据来源: 中文互联网的问答及文章,经过深度清洗、重构及人工审核。
语言: 中文
数据集版本: v0.1
数据集组成
配置名称及数据文件:
- chinese_traditional: 训练数据路径为
chinese_traditional/* - coig_pc: 训练数据路径为
coig_pc/* - exam: 训练数据路径为
exam/* - finance: 训练数据路径为
finance/* - douban: 训练数据路径为
douban/* - human_value: 训练数据路径为
human_value/* - logi_qa: 训练数据路径为
logi_qa/* - ruozhiba: 训练数据路径为
ruozhiba/* - segmentfault: 训练数据路径为
segmentfault/* - wiki: 训练数据路径为
wiki/* - wikihow: 训练数据路径为
wikihow/* - xhs: 训练数据路径为
xhs/* - zhihu: 训练数据路径为
zhihu/*
任务类别:
- 问答
- 文本分类
- 文本生成
- 文本到文本生成
数据集大小: 10K<n<100K
数据格式
json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }
数据详情
社交媒体&论坛:
- 知乎: 8837条
- 豆瓣: 3132条
- 小红书: 1508条
- Segmentfault: 458条
- 总量: 13935条
通用百科:
- 百科文章: 980条
- 中国大百科全书: 1706条
- wikiHow中文: 1876条
- 总量: 4571条
通用NLP任务:
- COIG-PC-Core: 3000条
- 总量: 3000条
考试&试题:
- 高考&中考: 2000条
- 研究生入学考试: 475条
- 逻辑推理题: 422条
- 总量: 2897条
人类价值观:
- 100poison: 906条
- COIG-human-value: 101条
- 总量: 1007条
中国传统文化:
- 中华传统文化试题: 232条
- 成语释义: 112条
- 古诗词撰写: 47条
- 文言文互译: 112条
- 总量: 503条
金融&经管领域:
- MBA百科: 10689条
- 金融NLP任务: 600条
- 总量: 11289条
医疗领域:
- 医疗百科: 8351条
- 医疗文章: 186条
- 总量: 8537条
法律领域:
- 法律研究生入学考试: 2645条
- 总量: 2645条
使用建议
用户应意识到数据集存在的风险、偏见和技术限制。更多信息需进一步提供。
引用信息
bibtex @misc{bai2024coig, title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning}, author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others}, year={2024}, eprint={2403.18058}, archivePrefix={arXiv}, primaryClass={cs.CL} }



