COIG-P
收藏arXiv2025-04-08 更新2025-04-10 收录
下载链接:
https://github.com/multimodal-art-projection/COIG-P
下载链接
链接失效反馈官方服务:
资源简介:
COIG-P是一个由M-A-P机构发布的高质量、大规模中文偏好数据集,旨在促进大型语言模型与人类价值观的对齐。该数据集涵盖了聊天、代码、数学、逻辑、小说和角色扮演六个领域,包含1,006,949条由15种LLM模型生成的样本对。数据集的构建过程无需人工干预,采用自动化流程从多个开源和闭源LLM模型中生成和评分响应,并通过预设阈值筛选出高质量的样本对。
COIG-P is a high-quality, large-scale Chinese preference dataset released by the M-A-P institution, aiming to advance the alignment between large language models and human values. This dataset covers six domains including chat, code, mathematics, logic, fiction, and role-playing, and contains 1,006,949 sample pairs generated by 15 LLM models. The construction process of this dataset does not require human intervention, adopting an automated pipeline to generate and score responses from multiple open-source and closed-source LLM models, and filter high-quality sample pairs via preset thresholds.
提供机构:
M-A-P
创建时间:
2025-04-08
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,高质量的数据集对于提升大型语言模型与人类价值观的对齐能力至关重要。COIG-P数据集通过创新的LLM自动化标注流程构建,首先从多个中文问答平台和标准化测试中爬取并筛选了92,784个高质量查询,覆盖对话、数学、逻辑、小说续写、角色扮演和编程六个领域。随后采用15个主流LLM生成多样化回答,并由8个精选LLM进行评分配对,最终形成1,006,949个包含查询-优选/劣选回答对的高质量样本。整个过程通过语义去重、规则过滤和人工验证确保数据质量,且完全无需人工标注干预。
特点
作为当前规模最大的中文偏好数据集,COIG-P具有三个显著特征:领域覆盖全面性,其样本均匀分布在日常对话、STEM和创意写作等六大领域;质量验证严谨性,通过多LLM交叉评分和人工抽检实现90.83%的平均准确率;以及数据多样性,每个查询平均生成6-20个不同风格的回答对。特别值得注意的是,该数据集创新性地采用动态阈值策略(Δscore≥2)筛选回答对,在保证质量的同时最大化数据利用率,相比传统单LLM标注方法有效降低了模型偏好偏差。
使用方法
该数据集主要应用于基于人类反馈的强化学习(RLHF)训练场景,尤其适合DPO、PPO等对齐算法。使用者可通过加载标准化的JSON格式数据,直接获取已标注的查询-回答对及其质量评分。对于模型训练,建议将数据按7:2:1划分为训练、验证和测试集,重点关注数学与逻辑推理等薄弱领域的样本分布。为提升效率,数据集提供配套的8B参数中文奖励模型(CRM),可用于快速筛选高质量样本或替代GPT-4进行自动评估。实验表明,在Qwen2/2.5等主流模型上使用该数据集进行微调,能在AlignBench评测中获得2%-12%的性能提升。
背景与挑战
背景概述
COIG-P(Chinese Open Instruction Generalist - Preference)是由2077AI团队于2025年发布的大规模中文偏好数据集,旨在解决大语言模型(LLMs)与人类价值观对齐的核心问题。作为首个采用纯LLM自动化标注流程的中文偏好数据集,其创新性地通过15个主流LLM生成并评分100.6万对偏好数据,覆盖对话、编程、数学、逻辑推理、小说续写和角色扮演六大领域。该数据集突破了传统中文偏好数据规模小(如Zhihu-Rlhf-3k仅3千样本)、领域单一且依赖人工标注的局限,通过多模型协同标注机制显著提升了数据多样性和质量评估的客观性。实验表明,基于COIG-P训练的模型在AlignBench基准上实现了2%-12%的性能提升,推动了中文开源社区在价值观对齐领域的研究进程。
当前挑战
COIG-P面临的挑战主要体现在两个维度:领域问题层面,现有中文偏好数据存在质量参差(如CVALUES仅145k样本且未经验证)和领域覆盖不足的问题,难以支撑复杂场景下的价值观对齐需求;构建过程层面,需解决多模型评分一致性(避免GPT-4等单一模型偏见)、响应质量阈值设定(实验证明2分为最优差异阈值)及跨领域数据平衡等难题。此外,为降低LLM评分成本而开发的8B参数中文奖励模型(CRM),需在1,040样本的CRBench验证集上保持与GPT-4o相当的低质量样本识别能力(准确率差距<4%),这对模型压缩和迁移学习提出了极高要求。
常用场景
经典使用场景
COIG-P数据集在自然语言处理领域中被广泛用于大型语言模型(LLMs)的对齐任务,特别是在中文环境中。其多领域覆盖和高质量标注使其成为研究人类价值对齐的首选资源。研究人员利用该数据集进行指令微调和强化学习,以优化模型在对话、代码生成、数学推理等任务中的表现。
实际应用
在实际应用中,COIG-P被用于开发更符合人类偏好的中文对话系统、教育辅助工具和代码生成助手。例如,基于该数据集训练的模型能够生成更自然的中文对话,提供更准确的数学解题步骤,以及更符合编程规范的代码建议,显著提升了用户体验。
衍生相关工作
COIG-P催生了多项重要研究工作,包括开发中文奖励模型(CRM)和中文奖励基准(CRBench)。这些衍生工具进一步降低了使用LLM进行评分的成本,并提供了更高效的偏好数据标注方法。此外,该数据集还启发了多领域对齐技术的研究,如角色扮演对话优化和小说续写质量提升。
以上内容由遇见数据集搜集并总结生成



