thu-coai/lccc

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/thu-coai/lccc

下载链接

链接失效反馈

资源简介：

LCCC: Large-scale Cleaned Chinese Conversation corpus (LCCC) 是一套来自于中文社交媒体的对话数据，我们设计了一套严格的数据过滤流程来确保该数据集中对话数据的质量。这一数据过滤流程中包括一系列手工规则以及若干基于机器学习算法所构建的分类器。我们所过滤掉的噪声包括：脏字脏词、特殊字符、颜表情、语法不通的语句、上下文不相关的对话等。

提供机构：

thu-coai

原始信息汇总

数据集概述

数据集名称： LCCC: Large-scale Cleaned Chinese Conversation corpus

数据集简介： LCCC是一个大规模的中文对话语料库，源自中文社交媒体。通过一套严格的数据清洗流程，确保了语料库的质量。该流程包括一系列手工规则和多个基于机器学习算法的分类器，用于过滤掉脏字脏词、特殊字符、颜表情、语法不通的语句、上下文不相关的对话等噪声。

语言： 中文

许可： MIT License

多语言性： 单语种

任务类别： 对话生成

数据集大小：

LCCC-large: 1530827965字节，12007759个实例
LCCC-base: 937055849字节，包含6820506个训练实例，20000个验证实例和10000个测试实例

数据集结构：

数据字段： dialog (列表，字符串类型)，包含对话中的多个语句。
数据分割： LCCC-base提供官方分割，包括训练集、验证集和测试集。

使用许可：

该数据集根据MIT许可证发布，允许自由使用、复制、修改、合并、出版、分发、转授和/或出售软件副本，但需包含版权声明和许可声明。

引用信息： bibtex @inproceedings{wang2020chinese, title={A Large-Scale Chinese Short-Text Conversation Dataset}, author={Wang, Yida and Ke, Pei and Zheng, Yinhe and Huang, Kaili and Jiang, Yong and Zhu, Xiaoyan and Huang, Minlie}, booktitle={NLPCC}, year={2020}, url={https://arxiv.org/abs/2008.03946} }

搜集汇总

数据集介绍

构建方式

LCCC数据集的构建过程体现了对数据质量的严格把控。该数据集源自中文社交媒体，通过设计一套复杂的数据清洗流程，确保了对话内容的高质量。这一流程结合了手工规则与基于机器学习算法的分类器，有效过滤了包括脏字脏词、特殊符号、颜表情、语法错误及上下文不连贯的对话等噪声。

使用方法

LCCC数据集主要用于训练和评估对话生成模型。研究人员可以利用该数据集来开发能够生成自然流畅对话的AI系统。此外，该数据集也适用于训练响应检索模型，通过检索最合适的对话响应来增强对话系统的交互能力。使用该数据集时，建议遵循其提供的训练、验证和测试集划分，以确保模型评估的准确性和公正性。

背景与挑战

背景概述

LCCC（Large-scale Cleaned Chinese Conversation corpus）是由清华大学自然语言处理与社会人文计算实验室（THU-COAI）于2020年发布的大规模中文对话语料库。该数据集旨在为中文对话生成和响应检索任务提供高质量的语料支持。LCCC的语料来源于中文社交媒体，经过严格的数据清洗流程，过滤了包括敏感词汇、特殊符号、表情符号、语法错误及不连贯对话在内的多种噪声。该数据集的发布为中文自然语言处理领域的研究提供了重要的资源，尤其是在对话生成和检索任务中展现了显著的影响力。

当前挑战

LCCC数据集在构建过程中面临的主要挑战包括数据清洗的复杂性和语料质量的保证。由于社交媒体数据的多样性和噪声较多，设计一套高效且全面的清洗流程成为关键。此外，如何在不损失对话连贯性和自然性的前提下，过滤掉不相关或低质量的内容，也是一个技术难点。在应用层面，尽管LCCC为对话生成和响应检索任务提供了丰富的语料，但如何有效利用这些数据训练出能够生成自然、连贯对话的模型，仍然是一个亟待解决的问题。此外，数据集中可能存在的潜在偏见和敏感信息也需要进一步研究和处理。

常用场景

经典使用场景

LCCC数据集广泛应用于中文对话生成任务中，特别是在训练生成式对话模型时，其大规模且经过严格清洗的对话数据为模型提供了丰富的语境和多样化的表达方式。研究者可以利用该数据集训练模型，使其能够生成自然流畅的中文对话回复，从而提升对话系统的用户体验。

解决学术问题

LCCC数据集解决了中文对话生成领域中的关键问题，即缺乏高质量、大规模的对话语料。通过严格的清洗流程，该数据集有效去除了噪声数据，如敏感词汇、语法错误和不连贯的对话，为研究者提供了一个干净且多样化的训练环境。这不仅推动了对话生成模型的性能提升，还为中文自然语言处理领域的研究提供了坚实的基础。

实际应用

在实际应用中，LCCC数据集被广泛用于开发智能客服、虚拟助手和社交机器人等对话系统。基于该数据集训练的模型能够生成符合语境的中文回复，显著提升了用户与系统交互的自然度和流畅性。此外，该数据集还被用于教育领域，帮助开发语言学习工具，提升学习者的中文对话能力。

数据集最近研究