chinese_chatbot_corpus

github2022-04-03 更新2024-05-31 收录

下载链接：

https://github.com/bojone/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，方便用户直接使用。

This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These datasets have been uniformly standardized and processed to facilitate direct usage by users.

创建时间：

2019-12-10

原始信息汇总

数据集概述

数据集来源

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据集特点

chatterbot: 560条，按类型分类，质量较高，未分词。
豆瓣多轮: 352万条，噪音较少，多轮对话，已分词。
PTT八卦语料: 40万条，繁体，生活化，有噪音，未分词。
青云语料: 10万条，生活化，未分词。
电视剧对白语料: 274万条，有噪音，多轮对话，未分词。
贴吧论坛回帖语料: 232万条，多轮，有噪音，未分词。
微博语料: 443万条，有噪音，未分词。
小黄鸡语料: 45万条，有不雅对话，少量噪音，未分词。

数据处理

将各个来源的语料按照其原格式进行提取。
进行繁体字转换。
统一变成一轮一轮的对话。

数据集使用

下载地址：https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A，提取码：f2ex。
解压后将raw_chat_corpus文件夹放到当前目录下。
执行命令：python main.py 或 python3 main.py。

生成结果

每个来源的语料生成独立的*.tsv文件。
存放于clean_chat_corpus文件夹下。
格式：query answer。

搜集汇总

数据集介绍

构建方式

chinese_chatbot_corpus数据集的构建基于对多个开源中文聊天语料的系统化搜集与整理。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料及小黄鸡语料在内的八种常见语料。每种语料均经过提取、繁体字转换及对话轮次统一化处理，确保数据格式的一致性，便于直接使用。

使用方法

使用chinese_chatbot_corpus数据集时，用户需首先从指定链接下载语料包，并将其解压至项目目录中。随后，通过执行main.py脚本，系统将自动处理并生成独立的*.tsv文件，每个文件对应一种语料类型。生成的TSV文件格式简洁，每行包含一个对话样本，由query和answer两部分组成，便于直接用于模型训练或分析。此外，用户可根据具体需求，灵活调整数据处理流程，以适应不同的研究或应用场景。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，中文聊天机器人逐渐成为研究热点。chinese_chatbot_corpus数据集由多位研究人员和机构共同创建，旨在为中文聊天机器人的开发提供高质量的语料支持。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的多种公开闲聊语料，涵盖了从社交媒体到电视剧对白的广泛内容。通过对这些语料的统一化处理，数据集为研究者提供了一个便捷的资源库，极大地推动了中文自然语言处理领域的发展。

当前挑战

chinese_chatbot_corpus数据集在构建过程中面临多重挑战。首先，语料来源的多样性导致数据格式和质量的差异较大，需要进行复杂的预处理工作以确保数据的一致性和可用性。其次，部分语料存在噪音和不规范表达，增加了数据清洗的难度。此外，繁体字与简体字的转换、多轮对话的拆分等问题也对数据集的构建提出了技术上的挑战。这些挑战不仅考验了数据处理的技术能力，也对后续的模型训练和应用提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，chinese_chatbot_corpus数据集被广泛应用于中文聊天机器人的训练和评估。该数据集整合了多个来源的中文对话语料，包括社交媒体、论坛、电视剧对白等，为研究人员提供了一个丰富且多样化的语言环境。通过使用这些语料，研究者可以训练出更加自然、流畅的对话系统，提升机器人的对话质量和用户体验。

解决学术问题

chinese_chatbot_corpus数据集解决了中文自然语言处理领域中的多个关键问题，尤其是在对话系统的构建和优化方面。通过整合和统一处理多种来源的语料，该数据集为研究者提供了一个标准化的基准，便于进行模型训练和性能评估。此外，该数据集的多轮对话特性有助于研究多轮对话管理、上下文理解等复杂问题，推动了对话系统技术的进步。

实际应用

在实际应用中，chinese_chatbot_corpus数据集为开发智能客服、虚拟助手等产品提供了强有力的支持。通过使用该数据集，企业可以训练出能够理解用户意图、生成自然回应的聊天机器人，从而提升客户服务的效率和质量。此外，该数据集还可用于社交媒体监控、情感分析等场景，帮助企业更好地理解用户需求和市场趋势。

数据集最近研究