BAAI/COIG-PC-Lite

Name: BAAI/COIG-PC-Lite
Creator: BAAI
Published: 2024-06-14 01:18:23
License: 暂无描述

Hugging Face2024-06-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BAAI/COIG-PC-Lite

下载链接

链接失效反馈

官方服务：

资源简介：

COIG-PC数据集是一个精心策划的中文任务和数据集合，旨在为中文自然语言处理（NLP）提供丰富的资源，以优化和微调语言模型。该数据集通过整合市场上几乎所有可用的中文数据集，并经过严格的手工处理，去除了重复数据并进行了规范化，确保数据集的一致性和结构化。COIG-PC数据集特别适合用于文本生成、信息提取、情感分析、机器翻译等领域，能够有效应对中文语言的复杂性。

COIG-PC is a meticulously curated collection of Chinese tasks and datasets, aimed at providing abundant resources for Chinese natural language processing (NLP) to optimize and fine-tune language models. This dataset integrates nearly all available Chinese datasets on the market, and undergoes rigorous manual processing to remove duplicate data and carry out standardization, ensuring the consistency and structured nature of the dataset. The COIG-PC dataset is particularly suitable for fields including text generation, information extraction, sentiment analysis, machine translation and other related domains, and can effectively tackle the complexity inherent in the Chinese language.

提供机构：

BAAI

原始信息汇总

COIG Prompt Collection 数据集概述

数据集基本信息

数据集结构

文件格式: 数据集采用 .jsonl 格式，每行代表一个数据记录，使用 JSON 格式。
数据记录元素:
- instruction: 任务指令，文本字符串。
- input: 输入数据，文本字符串。
- output: 输出数据，文本字符串。
- split: 数据集分割类型，如 train, test, valid 等。
- task_type: 任务类型，包含主要和次要分类。
- domain: 数据所属领域。
- other: 其他信息或元数据，可能为空。

数据集分割

分割类型: full, train, valid, test, Top50PerTask, Top100PerTask, Top200PerTask。
统计信息:
- full: 650147 个样本，1099400407 字节。
- train: 216691 个样本，410204689 字节。
- valid: 16148 个样本，12413560 字节。
- test: 69301 个样本，51472090 字节。
- Top50PerTask: 19274 个样本，14763925 字节。
- Top100PerTask: 37701 个样本，28489139 字节。
- Top200PerTask: 69301 个样本，51472090 字节。

数据集大小

下载大小: 53939740 字节。
数据集总大小: 1668215900 字节。

数据集使用许可

默认许可

默认许可: Apache License 2.0 (Apache-2.0)。
特定许可优先: 对于具有明确声明许可的子数据集，其声明的许可条件优先。

使用须知

用户必须遵守每个子数据集的许可条件，这些条件可能因子数据集而异。

数据集更新历史

v1.2: 删除 31 个不良任务文件，更新 99 个任务文件，重命名 2 个任务文件，添加 3 个新任务文件。总任务数为 3339。
v1.1: 修复 2 个任务文件，忽略 2 个任务文件。
v1.0: 首次版本，用于 arXiv 论文。
v0.6: 上传 28 个新任务，总任务数为 3367。
v0.5: 上传 202 个新任务，总任务数为 3339。
v0.4: 上传 1049 个新任务，总任务数为 3137。
v0.3: 上传 1139 个新任务，总任务数为 2088。
v0.2: 上传 422 个新任务，总任务数为 949，添加 "TopSamplenumPerTask" 分割。
v0.1: 上传 527 个任务。

数据集构建者

数据集由北京智源人工智能研究院、北京大学、香港科技大学等国内外二十多所知名大学和研究机构的工程师和专家合作构建。

数据集用途

数据集旨在支持中文自然语言处理（NLP）模型的微调和优化，适用于文本生成、信息提取、情感分析、机器翻译等多个领域。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的中文指令数据集对于模型优化至关重要。COIG-PC-Lite数据集源自北京智源人工智能研究院主导的协作项目，其构建过程体现了严谨的学术规范。该数据集以stardust.ai提供的互联网聚合数据为基础，经过来自二十余所国内外顶尖高校与研究机构的工程师与专家团队精心处理。构建过程中，团队对原始数据进行了系统性的格式整合、数据清洗与标注，并执行了严格的手工去重与归一化操作，确保数据的一致性与结构性。最终形成的子集COIG-PC-Lite从每个任务文件中精选200个样本，旨在为研究者提供一个轻量而具代表性的基准资源。

特点

COIG-PC-Lite数据集在中文自然语言处理任务中展现出鲜明的特色。其核心优势在于针对汉语的复杂性与多样性进行了专门设计，覆盖了翻译、信息抽取、情感分析及文本生成等多种任务类型。数据集采用指令-输入-输出的结构化格式，每条记录均附带详细的任务类型、领域及划分标签，便于模型进行精细化学习。此外，数据集提供了包括完整集、训练集、验证集、测试集及按任务样本数划分的多种数据分割，支持灵活的模型训练与评估需求。这种多层次、多领域的覆盖使其成为优化中文语言模型性能的高效工具。

使用方法

使用COIG-PC-Lite数据集时，研究者可依据具体目标灵活调用其结构化资源。数据集以JSONL格式存储，每条记录包含指令、输入、输出及元数据字段，可直接用于监督式微调或指令遵循训练。用户可通过HuggingFace数据集库加载不同分割，如训练集用于模型参数更新，验证集与测试集用于性能评估。针对特定研究需求，亦可选用Top50PerTask等按任务采样的子集，以平衡数据分布与计算开销。在使用过程中，需严格遵守各子数据集声明的许可协议，并注意数据中可能存在的个人信息与内容风险，确保合规且负责任的研究实践。

背景与挑战

背景概述

在自然语言处理领域，中文因其庞大的字符集和复杂的语法结构而构成独特挑战，亟需高质量、大规模的中文指令数据集以推动语言模型的本土化发展。北京智源人工智能研究院联合国内外二十余所顶尖高校与机构，于2023年推出了COIG-PC数据集，其精简版本COIG-PC-Lite亦同步发布。该数据集旨在通过整合与清洗市面现有中文数据集，构建一个涵盖翻译、信息抽取、情感分析等多任务的指令集合，为中文大语言模型的微调与优化提供关键资源。其核心研究问题聚焦于如何系统性地解决中文语言处理的复杂性，并促进模型在多样化任务上的泛化能力，对中文自然语言处理研究产生了深远影响。

当前挑战

COIG-PC数据集致力于应对中文自然语言处理中指令遵循与任务泛化的核心难题，其挑战在于如何构建一个能够全面覆盖中文语言特性、如多义性、语法灵活性与文化语境的数据集合。在构建过程中，团队面临多重挑战：首先，原始数据来源广泛且格式不一，需进行大规模的数据清洗、去重与归一化处理，以确保数据质量与一致性；其次，中文任务的多样性与复杂性要求精细的标注与分类体系，涉及大量人工审核与领域知识整合；此外，数据集中可能包含个人信息或受版权保护内容，需在合规框架下进行严格筛选与匿名化处理，以平衡数据效用与法律风险。

常用场景

经典使用场景

在中文自然语言处理领域，COIG-PC-Lite数据集作为指令微调的关键资源，其经典应用场景集中于大语言模型的指令遵循能力优化。该数据集通过精心设计的指令-输入-输出三元组结构，为模型提供了丰富的任务范例，涵盖翻译、信息抽取、情感分析等多个维度。研究人员利用这些标注数据对预训练模型进行监督微调，显著提升了模型在零样本或少样本场景下的任务泛化性能，尤其在处理中文特有的语言现象时展现出卓越的适应性。

解决学术问题

该数据集有效应对了中文自然语言处理研究中数据稀缺与质量不均的挑战。通过整合市面主流中文数据集并实施去重与规范化处理，它构建了高质量、多样化的指令数据集，为学术社区提供了标准化的评测基准。其意义在于推动了中文大模型从通用预训练向任务专业化方向的演进，解决了模型在复杂中文语法结构、多义词辨析及文化语境理解等方面的瓶颈问题，为中文NLP技术的理论创新与实证研究奠定了坚实的数据基础。

衍生相关工作

围绕该数据集衍生的经典工作包括基于指令调优的中文大模型体系研究，如Chinese-Alpaca、ChatGLM等模型的优化迭代。学术团队利用其多层次任务分类体系，开发了针对特定领域的中文评估基准，如C-Eval与CMMLU。同时，该数据集也催生了跨语言指令迁移学习方法的研究，探索中英文任务知识迁移的有效路径，为多语言大模型统一框架的构建提供了重要的数据支撑与实验验证平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集