zhengr/COIG-CQIA
收藏数据集概述
数据集名称
COIG-CQIA:Quality is All You Need for Chinese Instruction Fine-tuning
数据集描述
COIG-CQIA是一个开源的高质量指令微调数据集,主要为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。数据来源于中文互联网的问答及文章,经过深度清洗、重构及人工审核构建而成。
数据集配置
- config_name: 数据集配置名称
- data_files: 数据文件列表
- split: 数据分割类型(如train)
- path: 数据文件路径
任务类别
- 问答
- 文本分类
- 文本生成
- 文本到文本生成
语言
- 中文(zh)
数据集大小
- 10K<n<100K
数据格式
json { "instruction": "示例问题或者指令。", "input": "示例问题或指令的补充。", "output": "对输入的回复。", "task_type": { "major": ["问答"], "minor": ["百科问答"] }, "domain": ["百科", "医疗"], "answer_from": "human", "human_verified": true, "copyright": "作者及版权信息。", }
数据字段
instruction: 指令或问题input: 补充内容output: 回答task_type: 任务类型domain: 领域answer_from: 回答来源human_verified: 是否经过人工验证copyright: 版权信息
数据详情
- 社交媒体&论坛: 总量13935条
- 通用百科: 总量4571条
- 通用NLP任务: 总量3000条
- 考试&试题: 总量2897条
- 人类价值观: 总量1007条
- 中国传统文化: 总量503条
- 金融&经管领域: 总量11289条
- 医疗领域: 总量8537条
- 法律领域: 总量2645条
使用建议
用户应注意数据集的风险、偏差和技术限制。
引用信息
bibtex @misc{bai2024coig, title={COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning}, author={Bai, Yuelin and Du, Xinrun and Liang, Yiming and Jin, Yonggang and Liu, Ziqiang and Zhou, Junting and Zheng, Tianyu and Zhang, Xincheng and Ma, Nuo and Wang, Zekun and others}, year={2024}, eprint={2403.18058}, archivePrefix={arXiv}, primaryClass={cs.CL} }




