BAAI/COIG
收藏Hugging Face2023-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BAAI/COIG
下载链接
链接失效反馈官方服务:
资源简介:
Chinese Open Instruction Generalist (COIG)项目旨在构建一个无害、有帮助且多样化的中文指令语料库。项目包含多个子数据集,如手动验证的翻译通用指令语料库、手动注释的考试指令语料库、人类价值观对齐指令语料库、多轮反事实修正聊天语料库以及LeetCode指令语料库。这些语料库旨在帮助中文大型语言模型(LLMs)的指令调优,并为构建新的中文指令语料库提供模板。
The Chinese Open Instruction Generalist (COIG) project aims to construct a harmless, helpful and diverse Chinese instruction corpus. The project includes multiple sub-datasets, such as manually verified general translation instruction corpus, manually annotated exam instruction corpus, human values aligned instruction corpus, multi-turn counterfactual revision chat corpus, and LeetCode instruction corpus. These corpora are designed to facilitate instruction tuning for Chinese large language models (LLMs) and provide templates for building new Chinese instruction corpora.
提供机构:
BAAI
原始信息汇总
数据集概述
COIG(Chinese Open Instruction Generalist) 项目旨在维护一个无害、有益且多样化的中文指令语料库集合。该项目欢迎社区研究人员的贡献与合作,并已发布首批数据以支持中文大型语言模型的发展。
数据集内容
-
Translated Instructions
包含66,858条指令,源自Super-NaturalInstructions、Self-Instruct和Unnatural Instructions,通过自动翻译、手动验证和手动校正三阶段流程确保质量。 -
Exam Instructions
包含63,532条指令,主要来自中国的高考、中考和公务员考试,涵盖多种题型和详细解析,适用于思维链(CoT)语料库。 -
Human Value Alignment Instructions
包含34,471条指令,分为两类:共享人类价值观和特定地区或国家的价值观。 -
Counterfactural Correction Multi-round Chat
包含13,653条指令,基于CN-DBpedia知识图谱,旨在解决大型语言模型中的幻觉和事实不一致问题。 -
Leetcode Instructions
包含11,737条指令,源自Leetcode编程问题,旨在增强语言模型在代码相关任务上的能力。
数据集下载
建议直接从Hugging Face下载所需数据文件,而非使用HF load_datasets。
许可证
COIG数据集由BAAI发布,遵循Apache 2.0许可证。部分内容可能采用其他许可,如MIT许可证。
搜集汇总
数据集介绍

构建方式
在构建中文开放指令通用数据集(COIG)的过程中,研究团队采用了多源融合与人工校验相结合的策略。该数据集整合了五个核心子集:通过自动翻译与人工修正流程生成的通用指令翻译语料,确保了跨语言任务的准确性;从中国国家级考试中提取的结构化试题语料,涵盖语文、英语等多学科,并保留了详细的解析信息;基于中文语境价值观标注的人本对齐指令,区分了通用价值观与区域文化特异性内容;依托CN-DBpedia知识图谱构建的多轮反事实修正对话数据,旨在缓解大语言模型的幻觉问题;以及遵循开源协议收集的编程题目指令集,强化代码与自然语言的关联。整个构建过程强调质量验证与多样性平衡,为中文指令微调提供了系统化的工作流程范本。
特点
COIG数据集展现出鲜明的领域特色与结构创新性。其核心优势在于覆盖范围的广泛性,不仅融合了通用任务指令、学科考试题目和价值观对齐内容,还创新性地引入了多轮反事实对话与编程任务,形成了多层次的能力评估体系。数据质量通过严格的人工校验机制得到保障,尤其在翻译语料中实现了自动流程与手动修正的结合。该数据集特别注重中文语境下的文化适配性,在人本对齐部分区分了通用价值观与区域文化差异,体现了对语言模型社会影响的审慎考量。此外,各子集均保留了丰富的元数据与解析信息,为链式思维推理等进阶研究提供了结构化支持。
使用方法
研究者可通过HuggingFace平台直接下载COIG的独立数据文件,建议根据具体需求选择性获取子集而非加载完整数据集。使用前需仔细审查数据条目,必要时进行内容过滤,以符合模型安全要求。对于通用指令翻译部分,可直接用于中文大语言模型的指令微调;考试指令集可通过提示工程进一步转化为填空题等形式,以增强任务多样性;人本对齐数据适用于价值观校准研究;多轮对话语料能有效训练模型的事实一致性;编程指令集则可提升代码生成与理解能力。所有数据均附有详细的使用说明与许可信息,建议用户在Apache 2.0等相应许可框架下合规使用,并引用相关学术文献。
背景与挑战
背景概述
在人工智能领域,大规模语言模型的指令微调已成为提升模型交互能力的关键技术。2023年,北京智源人工智能研究院(BAAI)推出了中文开放指令通用项目(COIG),旨在构建一个无害、有益且多样化的中文指令数据集。该项目由张革等研究人员主导,核心研究问题聚焦于解决中文语言模型在指令遵循、常识推理、价值观对齐及代码生成等方面的能力不足。COIG的发布为中文自然语言处理社区提供了宝贵的资源,显著推动了中文大模型的发展与应用探索,尤其在跨文化语境下的模型适应性方面产生了深远影响。
当前挑战
COIG数据集致力于应对中文语言模型指令微调中的多重挑战。在领域问题层面,它需克服中文语境下指令多样性不足、文化价值观对齐困难以及模型幻觉与事实不一致性等核心难题。构建过程中,团队面临翻译质量保障的复杂性,如自动翻译与人工校验的平衡;考试题目中复杂符号(如数学、物理公式)的标注困境;以及多轮对话数据中知识图谱与角色扮演的整合压力。此外,代码指令的构建需处理中文自然语言与编程语言的语义对齐,确保数据在多样性与可靠性之间取得平衡。
常用场景
经典使用场景
在中文自然语言处理领域,BAAI/COIG数据集作为指令微调的关键资源,其经典使用场景集中于提升大型语言模型的中文指令遵循能力。该数据集通过整合翻译指令、考试指令、人类价值观对齐指令、多轮反事实修正对话及编程题目,为模型训练提供了丰富且多样化的语料。研究者常利用这些结构化指令,对模型进行监督微调或强化学习,以优化其在中文语境下的生成质量、逻辑推理及价值观一致性,从而推动中文通用人工智能的发展。
实际应用
在实际应用层面,BAAI/COIG数据集支撑了智能教育助手、政务服务机器人和代码生成工具等场景的开发。例如,考试指令可用于构建自适应学习系统,辅助学生进行学科练习;人类价值观对齐指令帮助企业部署符合中文社会规范的对话系统,避免文化冲突;反事实修正对话提升了知识问答系统的准确性,减少信息误导;编程指令则赋能代码辅助工具,支持中文描述下的程序生成。这些应用显著提升了AI系统在中文环境下的实用性与可靠性。
衍生相关工作
围绕BAAI/COIG数据集,学术界衍生了一系列经典研究工作。例如,基于其翻译指令部分,研究者开发了跨语言指令微调框架,优化了中英文混合任务的表现;利用考试指令,多项研究探索了链式思维提示在中文推理任务中的增强效果;人类价值观对齐指令催生了针对中文语境的安全对齐算法,如基于强化学习的人类反馈优化;反事实修正对话则启发了知识图谱增强的对话生成模型,用于减轻幻觉现象。这些工作共同推动了中文指令跟随模型的演进与创新。
以上内容由遇见数据集搜集并总结生成



