LCCC

Name: LCCC
Creator: 清华大学
Published: 2022-04-26 15:07:56
License: 暂无描述

arXiv2022-04-26 更新2024-06-21 收录

下载链接：

https://github.com/thu-coai/CDial-GPT

下载链接

链接失效反馈

官方服务：

资源简介：

LCCC是一个大规模的中文短文本对话数据集，由清华大学人工智能研究所创建。该数据集包含两个版本：基础版包含680万对话，而大型版则包含1200万对话。数据集通过严格的清洗流程确保质量，该流程基于规则和分类器，分类器训练自人工标注的11万对话对。LCCC数据集主要用于支持中文开放领域对话生成的研究，通过提供高质量的对话数据，促进预训练对话模型的发展。

LCCC is a large-scale Chinese short-text dialogue dataset created by the Institute of Artificial Intelligence at Tsinghua University. This dataset includes two versions: the base version contains 6.8 million dialogues, while the large-scale version contains 12 million dialogues. The dataset ensures its quality via a rigorous cleaning pipeline based on rules and a classifier, which was trained on 110,000 manually annotated dialogue pairs. The LCCC dataset is mainly used to support research on Chinese open-domain dialogue generation, and promotes the development of pre-trained dialogue models by providing high-quality dialogue data.

提供机构：

清华大学

创建时间：

2020-08-10

搜集汇总

数据集介绍

构建方式

在开放域对话生成领域，高质量大规模语料的稀缺制约了中文对话模型的发展。LCCC数据集的构建采用了一套严谨的数据清洗流程，首先从微博平台爬取7900万原始对话，随后融合多个公开中文对话语料库以扩充规模。清洗过程分为两个阶段：第一阶段基于启发式规则过滤包含不当内容、广告、重复模式及黑名单词汇的对话；第二阶段则利用在11万人工标注对话对上训练的BERT分类器，进一步剔除语义不连贯、信息不完整、话题时效性强或上下文无关的噪声对话，最终形成包含680万对话的LCCC-base和1200万对话的LCCC-large两个版本。

特点

LCCC数据集以其大规模与高质量的双重特性脱颖而出，为中文短文本对话研究提供了重要资源。该数据集涵盖单轮与多轮对话，平均每轮对话包含2至4个话轮，词汇量达66万以上，充分体现了语言多样性。与现有中文对话数据集相比，LCCC通过严格的清洗流程显著降低了脏词、敏感词及无关内容的占比，例如其噪声水平较STC数据集降低约五倍。同时，数据集的开放域特性确保了话题的广泛性，为模型学习自然、流畅且信息丰富的对话响应奠定了坚实基础。

使用方法

LCCC数据集主要用于训练和评估开放域中文对话生成模型。研究人员可直接使用其清洗后的对话序列进行模型预训练或微调，以提升模型的对话流畅性、相关性和信息量。该数据集支持基于Transformer架构的生成式模型，如GPT系列，通过将历史对话拼接为序列输入，并利用说话人嵌入区分角色，进行自回归语言建模。实践中，数据集常与预训练的中文GPT模型结合，进行后续训练，例如CDialGPT系列模型即在中文小说语料预训练基础上，使用LCCC进行领域适应。此外，数据集也可作为基准，用于自动评估（如BLEU、困惑度）和人工评估对话生成质量。

背景与挑战

背景概述

随着深度学习技术在自然语言处理领域的蓬勃发展，对话生成模型的研究逐渐成为学术界与工业界关注的焦点。然而，高质量、大规模的中文对话语料库的稀缺，严重制约了中文开放域对话生成模型的进步。在此背景下，清华大学的研究团队于2022年推出了LCCC（大规模中文短文本对话数据集），旨在填补这一空白。该数据集包含基础版（680万对话）与大型版（1200万对话），其数据主要来源于微博等社交媒体，并经过严格的清洗流程以确保质量。LCCC的发布不仅为中文对话生成模型的预训练提供了关键资源，还显著推动了相关领域的研究进展，成为该领域的重要基准。

当前挑战

LCCC数据集致力于解决开放域中文短文本对话生成中的核心挑战，即如何从海量但嘈杂的社交媒体数据中构建高质量、多样化的对话语料。具体挑战包括：在领域问题层面，模型需克服生成内容的相关性、流畅性与信息丰富度之间的平衡，同时避免产生有害或不恰当的回复；在构建过程中，团队面临数据噪声的复杂性问题，如平台标签、广告内容、不文明用语、语义不连贯及上下文依赖对话的过滤，这要求设计多阶段的规则与基于BERT分类器的混合清洗策略，以实现高效且精准的数据净化。

常用场景

经典使用场景

在开放域对话生成领域，LCCC数据集作为大规模中文短文本对话语料库，为预训练模型提供了丰富的训练基础。其经典使用场景在于支持基于Transformer架构的生成式对话模型，如CDial-GPT系列，通过微调或后训练方式，模型能够学习自然流畅的对话模式，生成符合语境的多轮响应。该数据集广泛应用于学术研究中，用于评估模型在自动回复生成任务上的性能，特别是在中文环境下对话系统的开发与优化。

实际应用

在实际应用层面，LCCC数据集支撑了智能客服、社交机器人及娱乐聊天系统等场景的开发。基于该数据集训练的模型能够生成连贯、信息丰富的中文对话响应，提升人机交互的自然度与用户体验。例如，在社交媒体平台或移动应用中，集成此类模型的系统可自动回应用户查询，提供情感支持或日常闲聊功能，有效降低了人工干预成本，推动了对话AI技术在商业与消费领域的落地。

衍生相关工作

LCCC数据集衍生了一系列经典研究工作，主要包括基于其训练的预训练对话模型如CDial-GPT和CDial-GPT2。这些模型在中文对话生成任务上展现了优越性能，成为后续研究的基准。此外，该数据集激发了更多针对中文对话的清洗方法、评估指标及多模态融合技术的探索，例如结合知识图谱或个性化特征的生成模型。相关成果不仅丰富了中文自然语言处理领域的文献，也为跨语言对话系统的比较与迁移学习提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集