中文聊天语料库

github2020-10-14 更新2024-05-31 收录

下载链接：

https://github.com/xurenlu/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料。并对这些语料进行了统一化规整和处理，以便直接使用。

本库汇聚了涵盖chatterbot、豆瓣多轮对话、PTT八卦、青云问答、电视剧台词、贴吧论坛回复、微博互动、小黄鸡闲聊等八种公开常用闲聊语料及短信数据，以及白鹭时代问答等资源。对这些数据进行了标准化整理与加工，以确保其可直接应用于各类应用场景。

创建时间：

2019-06-27

原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料进行的搜集和系统化整理，包括以下8个语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

数据处理过程包括：

按照原格式提取各个来源的语料
进行繁体字转换
统一变成一轮一轮的对话

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
豆瓣多轮	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	是
PTT八卦语料	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
青云语料	10W	某聊天机器人交流群	相对不错，生活化	否
电视剧对白语料	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	否
贴吧论坛回帖语料	232W	偶然找到的	多轮，有噪音	否
微博语料	443W	来自华为的paper	仍有一些噪音	否
小黄鸡语料	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

使用方法

下载语料：https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码：f2ex
将解压后的raw_chat_corpus文件夹放到当前目录下
执行命令：python main.py 或 python3 main.py

生成结果

每个来源的语料生成一个独立的.tsv文件
结果放在clean_chat_corpus文件夹下
格式为：query answer

搜集汇总

数据集介绍

构建方式

中文聊天语料库的构建基于对市面上多种开源中文聊天语料的系统化搜集与整理。该数据集整合了来自不同来源的语料，包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料，共计八种。每种语料在提取后经过繁体字转换，并统一处理为一轮一轮的对话格式，确保数据的一致性和可用性。

使用方法

使用中文聊天语料库时，用户首先需从指定链接下载预处理好的语料文件，并将其解压至项目目录。随后，通过执行main.py脚本，系统将自动生成每个来源语料的独立tsv文件，存储在clean_chat_corpus文件夹中。每行数据以query和answer的形式呈现，便于直接导入和分析。

背景与挑战

背景概述

中文聊天语料库是由一群致力于自然语言处理研究的学者和开发者共同创建的，旨在为中文聊天机器人和对话系统提供高质量的训练数据。该数据集的创建时间可追溯至近年来，随着人工智能技术的迅猛发展，对话系统的需求日益增长。主要研究人员和机构包括北航、微软等，他们通过整合和处理多个开源项目和公开语料，形成了这一综合性的聊天语料库。核心研究问题是如何有效地收集、整理和标准化多来源的中文对话数据，以提升聊天机器人的性能和用户体验。该数据集对相关领域的影响力在于，它为研究人员和开发者提供了一个统一、便捷的数据资源，极大地促进了中文自然语言处理技术的发展。

当前挑战

中文聊天语料库在构建过程中面临多项挑战。首先，不同来源的语料在格式、内容和质量上存在显著差异，需要进行繁琐的统一化处理和标准化。其次，语料中包含大量噪音，如不规范的对话、不雅内容等，这些都需要通过精细的过滤和清洗来解决。此外，语料的多样性虽然丰富了数据集，但也增加了处理的复杂性，特别是在多轮对话的结构化和分析上。最后，如何确保语料的版权和合法性，避免侵权问题，也是该数据集构建过程中必须面对的挑战。

常用场景

经典使用场景

中文聊天语料库的经典使用场景主要集中在自然语言处理（NLP）领域，特别是对话系统与聊天机器人的开发。该数据集通过整合多种来源的对话数据，为研究人员和开发者提供了一个统一的、高质量的语料库，用于训练和评估对话模型。其多轮对话的特性使得它特别适用于开发能够进行复杂交互的聊天机器人，从而提升用户体验。

解决学术问题

该数据集解决了在NLP领域中，特别是对话系统研究中，缺乏统一、高质量的中文对话语料的问题。通过提供多样化的对话样本，它有助于研究人员开发和验证新的对话模型，提升模型的泛化能力和鲁棒性。此外，该数据集的多轮对话特性为研究多轮对话管理、上下文理解和生成提供了宝贵的资源，推动了相关领域的发展。

实际应用

在实际应用中，中文聊天语料库被广泛用于开发智能客服、虚拟助手和社交机器人等应用。通过使用该数据集训练的模型，这些应用能够更自然地与用户进行交互，提供更加个性化和智能化的服务。例如，在电商平台上，智能客服可以利用该数据集进行训练，从而更有效地解答用户的问题，提升用户满意度。

数据集最近研究