LCCC

github2023-07-28 更新2024-05-31 收录

下载链接：

https://github.com/corpus-dataset/CDial-GPT

下载链接

链接失效反馈

官方服务：

资源简介：

本项目提供了一个大规模的经过系统清洗的中文对话数据集，包括LCCC-base和LCCC-large两个部分。LCCC-base数据集较小但更干净，而LCCC-large数据集则更大。数据集的质量通过严格的数据清洗流程得到保证，该流程基于一系列规则和训练有素的过滤器，用于处理包括脏话、敏感词、特殊符号、表情符号、语法错误和无上下文的对话等噪音。

This project provides a large-scale, systematically cleaned Chinese dialogue dataset, comprising two parts: LCCC-base and LCCC-large. The LCCC-base dataset is smaller but cleaner, while the LCCC-large dataset is more extensive. The quality of the dataset is ensured through a rigorous data cleaning process, which is based on a series of rules and well-trained filters designed to handle noise such as profanity, sensitive words, special symbols, emojis, grammatical errors, and context-free dialogues.

创建时间：

2020-08-12

原始信息汇总

数据集概述

数据集名称

CDial-GPT

数据集描述

CDial-GPT 提供了一个大规模的经过系统清洗的中文对话数据集，名为 Large-scale Cleaned Chinese Conversation corpus (LCCC)。该数据集包括两个部分：LCCC-base 和 LCCC-large。LCCC-base 数据集更为干净但规模较小，而 LCCC-large 数据集规模更大。

数据集构成

LCCC-base:
- 会话数: 3,354,382 (单轮) / 3,466,607 (多轮)
- 话语数: 6,708,554 (单轮) / 13,365,268 (多轮)
- 字符数: 68,559,727 (单轮) / 163,690,614 (多轮)
- 词汇量: 372,063 (单轮) / 666,931 (多轮)
- 平均每话语字数: 6.79 (单轮) / 8.32 (多轮)
- 平均每会话轮数: 2 (单轮) / 3.86 (多轮)
LCCC-large:
- 会话数: 7,273,804 (单轮) / 4,733,955 (多轮)
- 话语数: 14,547,608 (单轮) / 18,341,167 (多轮)
- 字符数: 162,301,556 (单轮) / 217,776,649 (多轮)
- 词汇量: 662,514 (单轮) / 690,027 (多轮)
- 平均每话语字数: 7.45 (单轮) / 8.14 (多轮)
- 平均每会话轮数: 2 (单轮) / 3.87 (多轮)

数据集来源

LCCC-base 数据集基于微博语料库构建，而 LCCC-large 数据集则在此基础上增加了多个其他对话数据集，包括 PTT Gossiping Corpus、Subtitle Corpus、Xiaohuangji Corpus、Tieba Corpus、Qingyun Corpus、Douban Conversation Corpus、E-commerical Conversation Corpus 和 Chinese Chat Corpus。

数据集质量保证

数据集的质量通过一个严格的数据清洗流程来保证，该流程基于一系列规则和经过人工标注对话对训练的过滤器。考虑的噪音类型包括脏话、敏感词、特殊符号、表情符号、语法错误和无上下文的对话。

数据集用途

该数据集用于训练和评估中文对话预训练模型，支持模型的预训练和微调。

评估

评估包括自动评估和人工评估，评估指标包括 PPL、BLEU、Distinct 等。人工评估涉及流畅性、相关性和多样性。

搜集汇总

数据集介绍

构建方式

LCCC数据集的构建基于微博语料库，并结合了多个其他对话数据集，包括PTT八卦语料库、字幕语料库、小黄鸡语料库、贴吧语料库、青云语料库、豆瓣对话语料库、电商对话语料库和中式闲聊语料库。通过严格的清洗流程，包括去除脏话、敏感词、特殊符号、表情符号、语法错误和无上下文的对话，确保了数据集的高质量。LCCC数据集分为LCCC-base和LCCC-large两个版本，前者更清洁但规模较小，后者规模更大。

特点

LCCC数据集的特点在于其大规模和高质量。LCCC-base和LCCC-large分别包含数百万的会话和数十亿的字符，词汇量丰富，平均每句话的单词数和每会话的轮数均有所不同。数据集的多样性体现在其来源广泛，涵盖了社交媒体、论坛、字幕、电商等多个领域，为中文对话生成研究提供了丰富的资源。

使用方法

LCCC数据集可用于预训练和微调中文对话生成模型。用户可以通过下载数据集文件并使用提供的代码进行模型训练和推理。预训练模型包括基于中文小说数据集的GPT模型和在LCCC数据集上进一步训练的模型。训练和推理过程可以通过调整参数进行优化，支持单GPU和多GPU分布式训练。数据集的分割版本（训练/验证/测试）也可供使用，方便用户进行模型评估和性能测试。

背景与挑战

背景概述

LCCC（Large-scale Cleaned Chinese Conversation）数据集是由Yida Wang等人于2020年创建的，旨在为中文对话生成研究提供一个大规模且经过系统清洗的数据资源。该数据集的核心研究问题是如何构建一个高质量的中文对话语料库，以支持对话系统的预训练和微调。LCCC数据集的构建基于微博语料库以及其他多个对话数据集，通过严格的清洗流程去除了脏话、敏感词、特殊符号等噪声，确保了数据的高质量。该数据集的发布对中文自然语言处理领域，尤其是对话生成和预训练模型的发展具有重要影响。

当前挑战

LCCC数据集在构建过程中面临了多个挑战。首先，如何从海量的对话数据中筛选出高质量的对话是一个复杂的问题，涉及多层次的过滤和清洗。其次，数据集的多样性也是一个重要的挑战，如何在保证数据质量的同时，涵盖不同领域和风格的对话内容，以提高模型的泛化能力。此外，数据集的规模和结构设计也是一个挑战，如何在有限的资源下，构建一个既大规模又结构合理的数据集，以满足不同研究需求。最后，数据集的隐私和伦理问题也需要严格考虑，确保在数据清洗过程中不侵犯用户隐私。

常用场景

经典使用场景

LCCC数据集在自然语言处理领域中被广泛应用于中文对话生成模型的预训练与微调。其经典使用场景包括构建大规模的中文对话预训练模型，通过在LCCC数据集上的预训练，模型能够学习到丰富的对话模式和语言表达，从而在后续的特定任务微调中表现出优越的性能。此外，LCCC数据集也被用于评估现有对话生成模型的效果，通过对比不同模型在LCCC数据集上的表现，研究者可以更准确地衡量模型的对话生成能力。

解决学术问题

LCCC数据集解决了中文对话生成领域中数据稀缺和质量参差不齐的问题。通过提供一个大规模、经过严格清洗的中文对话语料库，LCCC数据集为研究者提供了一个高质量的基准，使得他们能够在更真实、多样化的对话数据上进行模型训练和评估。这不仅推动了中文对话生成技术的发展，也为相关领域的研究提供了坚实的基础。此外，LCCC数据集的清洗流程和质量控制方法也为其他语言的对话数据集构建提供了宝贵的参考。

衍生相关工作

LCCC数据集的发布催生了一系列相关研究工作，特别是在中文对话生成和预训练模型领域。许多研究者基于LCCC数据集开发了新的对话生成模型，这些模型在多个公开数据集上取得了显著的性能提升。此外，LCCC数据集也被用于探索对话系统的多轮对话能力和上下文理解能力，推动了对话系统在复杂场景下的应用研究。同时，LCCC数据集的清洗和构建方法也为其他语言的对话数据集提供了借鉴，促进了跨语言对话生成技术的发展。

以上内容由遇见数据集搜集并总结生成