chinese_chatbot_corpus

github2020-06-02 更新2024-05-31 收录

下载链接：

https://github.com/siyuofzhou/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等共8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository compiles a collection of eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiaohuangji corpus. Additionally, it incorporates other datasets such as SMS messages and Egret Era Q&A. These datasets have been uniformly organized and processed to facilitate direct usage.

创建时间：

2019-10-18

原始信息汇总

数据集概述

数据集内容

该数据集搜集了以下8个公开闲聊常用语料和短信，白鹭时代问答等语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

所有语料经过统一化规整和处理，包括繁体字转换和对话格式统一，以便直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

使用方法

用户需下载语料，解压后将raw_chat_corpus文件夹放到当前目录下，执行python main.py或python3 main.py命令进行处理。

生成结果

每个来源的语料生成独立的.tsv文件，存放于clean_chat_corpus文件夹下，格式为每行一个样本，先是query，再是answer，如query answer。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程涉及对多个公开中文聊天语料的系统化搜集与整理。具体而言，数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的八种常见语料。每种语料均按照其原始格式进行提取，随后进行繁体字转换，并统一处理为一轮一轮的对话形式。这一过程确保了数据的多样性和一致性，为后续的研究和应用提供了便利。

使用方法

使用该数据集时，用户需首先从指定链接下载语料文件，并将其解压至本地目录。随后，通过执行提供的Python脚本，系统会自动处理原始语料，生成独立的TSV格式文件。每个文件包含一问一答的对话样本，用户可根据需求进一步处理或直接应用于聊天机器人的训练与评估。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，中文聊天机器人的研究与应用逐渐成为自然语言处理领域的热点。chinese_chatbot_corpus数据集应运而生，旨在为中文聊天机器人的开发提供丰富、多样的语料支持。该数据集由多个开源项目和个人贡献者共同构建，涵盖了豆瓣多轮对话、PTT八卦语料、电视剧对白等多种来源的语料，总计超过千万条对话数据。这些语料经过统一的整理和标准化处理，极大地方便了研究者和开发者的使用。该数据集的创建不仅推动了中文聊天机器人技术的发展，也为相关领域的研究提供了宝贵的数据资源。

当前挑战

chinese_chatbot_corpus数据集在构建过程中面临了多方面的挑战。首先，语料来源的多样性和复杂性使得数据清洗和标准化处理变得尤为困难，尤其是繁体字转换和多轮对话的整合。其次，不同语料的质量参差不齐，部分语料存在噪音和不规范表达，影响了数据的整体质量。此外，数据集的版权问题也需谨慎处理，确保所有语料的合法使用。在应用层面，如何有效利用这些多样化的语料来提升聊天机器人的对话质量和自然度，仍是一个亟待解决的核心问题。

常用场景

经典使用场景

在自然语言处理领域，chinese_chatbot_corpus数据集被广泛应用于中文聊天机器人的训练和评估。该数据集整合了多个来源的中文对话语料，包括社交媒体、论坛、电视剧对白等，为研究者提供了一个丰富多样的语言环境，用于训练模型理解和生成自然语言对话。

解决学术问题

该数据集解决了中文自然语言处理中的一个关键问题，即缺乏高质量、多样化的中文对话数据集。通过提供统一的、经过预处理的语料，研究者可以更专注于模型的设计和优化，而不必花费大量时间在数据收集和清洗上。此外，该数据集还支持多轮对话的研究，这对于提升聊天机器人的交互质量至关重要。

实际应用

在实际应用中，chinese_chatbot_corpus数据集被用于开发和优化各种商业和开源的中文聊天机器人。这些聊天机器人广泛应用于客服系统、社交媒体互动、教育辅导等领域，极大地提升了用户体验和服务效率。

数据集最近研究