LCCC|中文对话数据集数据集|自然语言处理数据集

github2023-07-28 更新2024-05-31 收录

中文对话数据集

自然语言处理

下载链接：

https://github.com/corpus-dataset/CDial-GPT

下载链接

链接失效反馈

资源简介：

本项目提供了一个大规模的经过系统清洗的中文对话数据集，包括LCCC-base和LCCC-large两个部分。LCCC-base数据集较小但更干净，而LCCC-large数据集则更大。数据集的质量通过严格的数据清洗流程得到保证，该流程基于一系列规则和训练有素的过滤器，用于处理包括脏话、敏感词、特殊符号、表情符号、语法错误和无上下文的对话等噪音。

This project provides a large-scale, systematically cleaned Chinese dialogue dataset, comprising two parts: LCCC-base and LCCC-large. The LCCC-base dataset is smaller but cleaner, while the LCCC-large dataset is more extensive. The quality of the dataset is ensured through a rigorous data cleaning process, which is based on a series of rules and well-trained filters designed to handle noise such as profanity, sensitive words, special symbols, emojis, grammatical errors, and context-free dialogues.

创建时间：

2020-08-12

原始信息汇总

数据集概述

数据集名称

CDial-GPT

数据集描述

CDial-GPT 提供了一个大规模的经过系统清洗的中文对话数据集，名为 Large-scale Cleaned Chinese Conversation corpus (LCCC)。该数据集包括两个部分：LCCC-base 和 LCCC-large。LCCC-base 数据集更为干净但规模较小，而 LCCC-large 数据集规模更大。

数据集构成

LCCC-base:
- 会话数: 3,354,382 (单轮) / 3,466,607 (多轮)
- 话语数: 6,708,554 (单轮) / 13,365,268 (多轮)
- 字符数: 68,559,727 (单轮) / 163,690,614 (多轮)
- 词汇量: 372,063 (单轮) / 666,931 (多轮)
- 平均每话语字数: 6.79 (单轮) / 8.32 (多轮)
- 平均每会话轮数: 2 (单轮) / 3.86 (多轮)
LCCC-large:
- 会话数: 7,273,804 (单轮) / 4,733,955 (多轮)
- 话语数: 14,547,608 (单轮) / 18,341,167 (多轮)
- 字符数: 162,301,556 (单轮) / 217,776,649 (多轮)
- 词汇量: 662,514 (单轮) / 690,027 (多轮)
- 平均每话语字数: 7.45 (单轮) / 8.14 (多轮)
- 平均每会话轮数: 2 (单轮) / 3.87 (多轮)

数据集来源

LCCC-base 数据集基于微博语料库构建，而 LCCC-large 数据集则在此基础上增加了多个其他对话数据集，包括 PTT Gossiping Corpus、Subtitle Corpus、Xiaohuangji Corpus、Tieba Corpus、Qingyun Corpus、Douban Conversation Corpus、E-commerical Conversation Corpus 和 Chinese Chat Corpus。

数据集质量保证

数据集的质量通过一个严格的数据清洗流程来保证，该流程基于一系列规则和经过人工标注对话对训练的过滤器。考虑的噪音类型包括脏话、敏感词、特殊符号、表情符号、语法错误和无上下文的对话。

数据集用途

该数据集用于训练和评估中文对话预训练模型，支持模型的预训练和微调。

评估

评估包括自动评估和人工评估，评估指标包括 PPL、BLEU、Distinct 等。人工评估涉及流畅性、相关性和多样性。

AI搜集汇总

数据集介绍

构建方式

LCCC数据集的构建基于微博语料库，并结合了多个其他对话数据集，包括PTT八卦语料库、字幕语料库、小黄鸡语料库、贴吧语料库、青云语料库、豆瓣对话语料库、电商对话语料库和中式闲聊语料库。通过严格的清洗流程，包括去除脏话、敏感词、特殊符号、表情符号、语法错误和无上下文的对话，确保了数据集的高质量。LCCC数据集分为LCCC-base和LCCC-large两个版本，前者更清洁但规模较小，后者规模更大。

特点

LCCC数据集的特点在于其大规模和高质量。LCCC-base和LCCC-large分别包含数百万的会话和数十亿的字符，词汇量丰富，平均每句话的单词数和每会话的轮数均有所不同。数据集的多样性体现在其来源广泛，涵盖了社交媒体、论坛、字幕、电商等多个领域，为中文对话生成研究提供了丰富的资源。

使用方法

LCCC数据集可用于预训练和微调中文对话生成模型。用户可以通过下载数据集文件并使用提供的代码进行模型训练和推理。预训练模型包括基于中文小说数据集的GPT模型和在LCCC数据集上进一步训练的模型。训练和推理过程可以通过调整参数进行优化，支持单GPU和多GPU分布式训练。数据集的分割版本（训练/验证/测试）也可供使用，方便用户进行模型评估和性能测试。

背景与挑战

背景概述

LCCC（Large-scale Cleaned Chinese Conversation）数据集是由Yida Wang等人于2020年创建的，旨在为中文对话生成研究提供一个大规模且经过系统清洗的数据资源。该数据集的核心研究问题是如何构建一个高质量的中文对话语料库，以支持对话系统的预训练和微调。LCCC数据集的构建基于微博语料库以及其他多个对话数据集，通过严格的清洗流程去除了脏话、敏感词、特殊符号等噪声，确保了数据的高质量。该数据集的发布对中文自然语言处理领域，尤其是对话生成和预训练模型的发展具有重要影响。

当前挑战

LCCC数据集在构建过程中面临了多个挑战。首先，如何从海量的对话数据中筛选出高质量的对话是一个复杂的问题，涉及多层次的过滤和清洗。其次，数据集的多样性也是一个重要的挑战，如何在保证数据质量的同时，涵盖不同领域和风格的对话内容，以提高模型的泛化能力。此外，数据集的规模和结构设计也是一个挑战，如何在有限的资源下，构建一个既大规模又结构合理的数据集，以满足不同研究需求。最后，数据集的隐私和伦理问题也需要严格考虑，确保在数据清洗过程中不侵犯用户隐私。

常用场景

经典使用场景

LCCC数据集在自然语言处理领域中被广泛应用于中文对话生成模型的预训练与微调。其经典使用场景包括构建大规模的中文对话预训练模型，通过在LCCC数据集上的预训练，模型能够学习到丰富的对话模式和语言表达，从而在后续的特定任务微调中表现出优越的性能。此外，LCCC数据集也被用于评估现有对话生成模型的效果，通过对比不同模型在LCCC数据集上的表现，研究者可以更准确地衡量模型的对话生成能力。

解决学术问题

LCCC数据集解决了中文对话生成领域中数据稀缺和质量参差不齐的问题。通过提供一个大规模、经过严格清洗的中文对话语料库，LCCC数据集为研究者提供了一个高质量的基准，使得他们能够在更真实、多样化的对话数据上进行模型训练和评估。这不仅推动了中文对话生成技术的发展，也为相关领域的研究提供了坚实的基础。此外，LCCC数据集的清洗流程和质量控制方法也为其他语言的对话数据集构建提供了宝贵的参考。

衍生相关工作

LCCC数据集的发布催生了一系列相关研究工作，特别是在中文对话生成和预训练模型领域。许多研究者基于LCCC数据集开发了新的对话生成模型，这些模型在多个公开数据集上取得了显著的性能提升。此外，LCCC数据集也被用于探索对话系统的多轮对话能力和上下文理解能力，推动了对话系统在复杂场景下的应用研究。同时，LCCC数据集的清洗和构建方法也为其他语言的对话数据集提供了借鉴，促进了跨语言对话生成技术的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

LFW (Labeled Faces in the Wild)

Labeled Faces in the Wild，是一个人脸照片数据库，旨在研究无约束的人脸识别问题。该数据集包含从网络收集的超过 13,000 张人脸图像。每张脸都标有图中人物的名字。照片中的 1680 人在数据集中有两张或更多张不同的照片。这些人脸的唯一限制是它们是由 Viola-Jones 人脸检测器检测到的。更多细节可以在下面的技术报告中找到。

OpenDataLab 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集，用于评估音乐信息检索中的多个任务。它包含 343 天的音频，来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑，按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能，以及轨道和用户级元数据、标签和自由格式的文本，例如传记。作者定义了四个子集：Full：完整数据集，Large：音频限制为 30 秒的完整数据集从轨道中间提取的剪辑（如果短于 30 秒，则为整个轨道），Medium：选择25,000 个具有单一根流派的 30 年代剪辑，小：一个平衡的子集，包含 8,000 个 30 年代剪辑，其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集（80/10/10）使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源：FMA：音乐分析数据集

OpenDataLab 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。