COIG-P

github2025-04-09 更新2025-04-10 收录

下载链接：

https://github.com/multimodal-art-projection/COIG-P

下载链接

链接失效反馈

官方服务：

资源简介：

COIG-P是一个高质量、大规模的中文偏好数据集，包含1,006k个中文偏好对，涵盖6个不同领域：聊天、代码、数学、逻辑、小说和角色。该数据集通过LLM自动生成和评分，避免了人工干预。

COIG-P is a high-quality, large-scale Chinese preference dataset comprising 1,006k Chinese preference pairs across six distinct domains: chat, code, mathematics, logic, fiction, and role. This dataset is automatically generated and scored by LLMs, with no manual intervention involved.

创建时间：

2025-04-01

原始信息汇总

COIG-P 数据集概述

数据集基本信息

名称: COIG-P (Chinese Open Instruction Generalist - Preference)
类型: 中文偏好数据集
规模: 1,006k 中文偏好对
领域: 涵盖6个多样化领域
- Chat
- Code
- Math
- Logic
- Novel
- Role

数据集特点

高质量: 通过LLM-based中文偏好数据集标注流程生成
自动化标注: 使用15个强大LLM生成和评分chosen-rejected响应对
基础数据: 爬取并筛选了92k高质量中文查询

数据集加载

python from datasets import load_dataset dataset = load_dataset("m-a-p/COIG-P")

应用案例

DPO训练: 提供训练脚本，基于Llama-Factory实现
模型评估: 使用AlignBench和KOR-Bench进行评估
奖励模型训练: 基于RLHF-Reward-Modeling实现

预训练模型

Qwen2-Instruct-7B-COIG-P
Qwen2.5-Instruct-7B-COIG-P
Infinity-Instruct-3M-0625-Qwen2-7B-COIG-P
Infinity-Instruct-3M-0625-Mistral-7B-COIG-P
Infinity-Instruct-3M-0625-Llama3-8B-COIG-P

引用

bib @misc{pteam2025coigphighqualitylargescalechinese, title={COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values}, author={P Team and Siwei Wu and Jincheng Ren and Xinrun Du and Shuyue Guo and Xingwei Qu and Yiming Liang and Jie Liu and Yunwen Li and Tianyu Zheng and Boyu Feng and Huaqing Yuan and Zenith Wang and Jiaheng Liu and Wenhao Huang and Chenglin Cai and Haoran Que and Jian Yang and Yuelin Bai and Zekun Moore Wang and Zhouliang Yu and Qunshu Lin and Ding Pan and Yuchen Jiang and Tiannan Wang and Wangchunshu Zhou and Shenzhi Wang and Xingyuan Bu and Minghao Liu and Guoyin Wang and Ge Zhang and Chenghua Lin}, year={2025}, eprint={2504.05535}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.05535}, }

搜集汇总

数据集介绍

构建方式

在中文自然语言处理领域，高质量偏好数据集的构建一直是研究难点。COIG-P数据集通过创新的LLM驱动标注流程，首先从海量中文语料中筛选出92k优质查询，随后调用15个高性能大语言模型并行生成候选响应，并采用模型间交叉评分机制自动构建了1,006k对偏好数据。该流程巧妙规避了传统人工标注的高成本问题，同时覆盖聊天、编程、数学等六大专业领域，形成了层次分明的多维度数据分布。

特点

作为当前规模最大的中文偏好数据集，COIG-P展现出鲜明的技术特色。其百万量级的偏好对不仅涵盖通用对话场景，更包含代码生成、数学推导等专业领域响应，为模型对齐研究提供了多维度的评估基准。数据集特别设计了成对响应的质量梯度，每对数据包含优选和劣选两个版本，这种结构化设计极大便利了直接偏好优化（DPO）等算法的实施。配套发布的8B参数中文奖励模型和标准化评测基准，进一步降低了研究者使用门槛。

使用方法

该数据集可通过Hugging Face平台便捷加载，支持多种典型应用场景。研究者既可直接调用标准接口加载原始数据，也能基于配套脚本快速实施DPO训练，其中提供的Llama-Factory工具链实现了训练流程的端到端封装。对于模型评估，数据集作者团队开放了完整的评测体系，包括AlignBench多维度评估框架和自动化评分脚本，用户仅需配置API密钥即可复现论文中的评测结果。针对特定研究需求，奖励模型模块支持开发者对响应质量进行细粒度评分。

背景与挑战

背景概述

COIG-P（Chinese Open Instruction Generalist - Preference）是由P Team等研究人员于2025年发布的高质量、大规模中文偏好数据集，旨在解决大语言模型与人类价值观对齐的核心问题。该数据集基于92k高质量中文查询，通过15个强大语言模型生成和评分，最终构建了涵盖聊天、编程、数学、逻辑、小说和角色扮演等6个领域的1,006k偏好对。COIG-P的推出填补了中文偏好数据集的空白，为中文大语言模型的价值观对齐研究提供了重要资源，并推动了相关领域的发展。

当前挑战

COIG-P数据集面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，如何准确捕捉和量化人类价值观的多样性，以及如何在不同领域（如逻辑推理和创造性写作）中保持一致的偏好标准，是该数据集需要解决的核心难题。在构建过程中，大规模高质量中文查询的获取与筛选、多模型生成响应的质量控制，以及自动化评分系统的可靠性验证，都是极具挑战性的技术环节。此外，减少对大型语言模型的依赖以降低计算开销，也是该数据集实际应用中的关键挑战。

常用场景

经典使用场景

在自然语言处理领域，COIG-P数据集为研究者提供了一个高质量、大规模的中文偏好数据集，特别适用于训练和评估对话系统的偏好学习模型。该数据集覆盖了聊天、代码、数学、逻辑、小说和角色扮演六个多样化领域，能够全面检验模型在不同场景下的表现。通过使用15个强大的大语言模型生成和评分响应对，COIG-P为研究者提供了丰富的训练样本，极大地促进了中文对话系统的发展。

实际应用

在实际应用中，COIG-P数据集已被用于训练多个开源中文对话模型，如Qwen2-Instruct-7B和Infinity-Instruct系列。这些模型在客服、教育、娱乐等领域展现出优异的性能。基于该数据集训练的8B规模中文奖励模型(CRM)显著降低了企业使用大语言模型进行偏好学习的计算成本，为中文对话系统的商业化落地提供了技术支持。

衍生相关工作

COIG-P数据集催生了一系列重要研究工作，包括基于该数据集训练的中文奖励模型(CRM)和中文奖励基准(CRBench)。研究者利用这些资源开展了深度偏好优化(DPO)等前沿算法的探索。相关成果发表在顶级学术会议上，推动了中文自然语言处理领域的发展。数据集还启发了对多领域偏好学习、跨语言迁移学习等方向的深入研究。

以上内容由遇见数据集搜集并总结生成