five

LCCC

收藏
arXiv2022-04-26 更新2024-06-21 收录
下载链接:
https://github.com/thu-coai/CDial-GPT
下载链接
链接失效反馈
官方服务:
资源简介:
LCCC是一个大规模的中文短文本对话数据集,由清华大学人工智能研究所创建。该数据集包含两个版本:基础版包含680万对话,而大型版则包含1200万对话。数据集通过严格的清洗流程确保质量,该流程基于规则和分类器,分类器训练自人工标注的11万对话对。LCCC数据集主要用于支持中文开放领域对话生成的研究,通过提供高质量的对话数据,促进预训练对话模型的发展。

LCCC is a large-scale Chinese short-text dialogue dataset created by the Institute of Artificial Intelligence at Tsinghua University. This dataset includes two versions: the base version contains 6.8 million dialogues, while the large-scale version contains 12 million dialogues. The dataset ensures its quality via a rigorous cleaning pipeline based on rules and a classifier, which was trained on 110,000 manually annotated dialogue pairs. The LCCC dataset is mainly used to support research on Chinese open-domain dialogue generation, and promotes the development of pre-trained dialogue models by providing high-quality dialogue data.
提供机构:
清华大学
创建时间:
2020-08-10
搜集汇总
数据集介绍
main_image_url
构建方式
在开放域对话生成领域,高质量大规模语料的稀缺制约了中文对话模型的发展。LCCC数据集的构建采用了一套严谨的数据清洗流程,首先从微博平台爬取7900万原始对话,随后融合多个公开中文对话语料库以扩充规模。清洗过程分为两个阶段:第一阶段基于启发式规则过滤包含不当内容、广告、重复模式及黑名单词汇的对话;第二阶段则利用在11万人工标注对话对上训练的BERT分类器,进一步剔除语义不连贯、信息不完整、话题时效性强或上下文无关的噪声对话,最终形成包含680万对话的LCCC-base和1200万对话的LCCC-large两个版本。
特点
LCCC数据集以其大规模与高质量的双重特性脱颖而出,为中文短文本对话研究提供了重要资源。该数据集涵盖单轮与多轮对话,平均每轮对话包含2至4个话轮,词汇量达66万以上,充分体现了语言多样性。与现有中文对话数据集相比,LCCC通过严格的清洗流程显著降低了脏词、敏感词及无关内容的占比,例如其噪声水平较STC数据集降低约五倍。同时,数据集的开放域特性确保了话题的广泛性,为模型学习自然、流畅且信息丰富的对话响应奠定了坚实基础。
使用方法
LCCC数据集主要用于训练和评估开放域中文对话生成模型。研究人员可直接使用其清洗后的对话序列进行模型预训练或微调,以提升模型的对话流畅性、相关性和信息量。该数据集支持基于Transformer架构的生成式模型,如GPT系列,通过将历史对话拼接为序列输入,并利用说话人嵌入区分角色,进行自回归语言建模。实践中,数据集常与预训练的中文GPT模型结合,进行后续训练,例如CDialGPT系列模型即在中文小说语料预训练基础上,使用LCCC进行领域适应。此外,数据集也可作为基准,用于自动评估(如BLEU、困惑度)和人工评估对话生成质量。
背景与挑战
背景概述
随着深度学习技术在自然语言处理领域的蓬勃发展,对话生成模型的研究逐渐成为学术界与工业界关注的焦点。然而,高质量、大规模的中文对话语料库的稀缺,严重制约了中文开放域对话生成模型的进步。在此背景下,清华大学的研究团队于2022年推出了LCCC(大规模中文短文本对话数据集),旨在填补这一空白。该数据集包含基础版(680万对话)与大型版(1200万对话),其数据主要来源于微博等社交媒体,并经过严格的清洗流程以确保质量。LCCC的发布不仅为中文对话生成模型的预训练提供了关键资源,还显著推动了相关领域的研究进展,成为该领域的重要基准。
当前挑战
LCCC数据集致力于解决开放域中文短文本对话生成中的核心挑战,即如何从海量但嘈杂的社交媒体数据中构建高质量、多样化的对话语料。具体挑战包括:在领域问题层面,模型需克服生成内容的相关性、流畅性与信息丰富度之间的平衡,同时避免产生有害或不恰当的回复;在构建过程中,团队面临数据噪声的复杂性问题,如平台标签、广告内容、不文明用语、语义不连贯及上下文依赖对话的过滤,这要求设计多阶段的规则与基于BERT分类器的混合清洗策略,以实现高效且精准的数据净化。
常用场景
经典使用场景
在开放域对话生成领域,LCCC数据集作为大规模中文短文本对话语料库,为预训练模型提供了丰富的训练基础。其经典使用场景在于支持基于Transformer架构的生成式对话模型,如CDial-GPT系列,通过微调或后训练方式,模型能够学习自然流畅的对话模式,生成符合语境的多轮响应。该数据集广泛应用于学术研究中,用于评估模型在自动回复生成任务上的性能,特别是在中文环境下对话系统的开发与优化。
实际应用
在实际应用层面,LCCC数据集支撑了智能客服、社交机器人及娱乐聊天系统等场景的开发。基于该数据集训练的模型能够生成连贯、信息丰富的中文对话响应,提升人机交互的自然度与用户体验。例如,在社交媒体平台或移动应用中,集成此类模型的系统可自动回应用户查询,提供情感支持或日常闲聊功能,有效降低了人工干预成本,推动了对话AI技术在商业与消费领域的落地。
衍生相关工作
LCCC数据集衍生了一系列经典研究工作,主要包括基于其训练的预训练对话模型如CDial-GPT和CDial-GPT2。这些模型在中文对话生成任务上展现了优越性能,成为后续研究的基准。此外,该数据集激发了更多针对中文对话的清洗方法、评估指标及多模态融合技术的探索,例如结合知识图谱或个性化特征的生成模型。相关成果不仅丰富了中文自然语言处理领域的文献,也为跨语言对话系统的比较与迁移学习提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作