chinese_chatbot_corpus

github2019-09-10 更新2024-05-31 收录

下载链接：

https://github.com/Charles3000/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These corpora have been uniformly standardized and processed for direct use.

创建时间：

2019-09-10

原始信息汇总

数据集概述

数据集内容

该数据集搜集并整理了以下8个公开的中文聊天语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

所有语料经过统一化规整和处理，包括繁体字转换和对话轮次的统一，以便直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban	352W	来自北航和微软的paper, 开源项目	噪音相对较少，多轮	是
ptt	40W	开源项目，台湾PTT论坛八卦版	繁体，生活化，有噪音	否
qingyun	10W	某聊天机器人交流群	生活化，相对不错	否
subtitle	274W	开源项目，电影和美剧字幕	多轮，有噪音	否
tieba	232W	偶然找到的	多轮，有噪音	否
weibo	443W	来自华为的paper	有噪音	否
xiaohuangji	45W	原人人网项目语料	有不雅对话，少量噪音	否

数据使用

用户可以通过下载链接获取所有语料，并使用提供的Python脚本进行处理。处理后的数据以tsv格式存储，每行包含一个query和对应的answer。

版权说明

本项目为非商业项目，为纯搜集和汇总资料，如有侵权，请在issue下留言。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对市面上开源中文聊天语料的搜集与整理，涵盖了不同来源的语料，如聊天机器人项目、社交媒体平台、论坛等，经过格式统一化处理和繁体字转换，形成了可直接使用的对话数据集。

特点

数据集汇集了多种类型的中文对话资源，包括闲聊、短信、多轮对话等，语料来源丰富，形式多样，具有不同的特点和用途，如豆瓣语料噪声低、多轮对话丰富，PTT语料生活化但存在噪声等。所有语料经过整理，易于后续研究与应用。

使用方法

用户可以通过提供的链接一次性下载所有语料，并在本地解压后通过执行主程序脚本进行数据的加载和处理。处理后的数据以TSV格式存储，便于直接应用于聊天机器人开发、语言模型训练等研究领域。

背景与挑战

背景概述

chinese_chatbot_corpus数据集的构建，是在人工智能领域对中文聊天机器人研发需求日益增长的背景下应运而生。该数据集由多个开源项目和研究中搜集整理而来，涵盖了豆瓣、PTT论坛、贴吧、微博等多种社交平台上的对话记录，共计数百万条数据。创建于近年来，由多个研究人员和机构共同维护，旨在为中文聊天机器人的训练与评估提供高质量、多样化的语料资源，对推动中文自然语言处理领域的研究具有重要意义。

当前挑战

尽管chinese_chatbot_corpus数据集为中文聊天机器人的研究提供了丰富的语料支持，但在实际应用中仍面临诸多挑战。首先，数据集中包含的噪音数据和未分词情况，为后续的数据预处理和模型训练带来不便。其次，数据集在覆盖不同社会文化和语言风格方面存在局限性，可能影响聊天机器人的泛化能力。此外，由于部分数据来源于网络社区，存在一些不雅对话和不恰当内容，需要进一步清洗和过滤。

常用场景

经典使用场景

chinese_chatbot_corpus数据集作为中文聊天机器人领域的重要资源库，其经典使用场景主要集中于自然语言处理中的对话系统训练与评估。该数据集整合了多种来源的中文对话语料，为研究者提供了一站式的数据获取和处理方案，从而能够有效支撑聊天机器人模型的构建与优化。

衍生相关工作

基于chinese_chatbot_corpus数据集，研究者们已衍生出一系列相关工作，如对话系统的情感分析、多轮对话的生成策略研究、对话质量评估等。这些工作不仅促进了聊天机器人技术的进步，也为自然语言处理领域带来了新的研究方向和应用案例，推动了整个领域的发展。

数据集最近研究