chinese_chatbot_corpus

github2019-04-28 更新2024-05-31 收录

下载链接：

https://github.com/Shiquan0304/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等共8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository compiles a collection of eight publicly available conversational corpora, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum and post replies corpus, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A data. These corpora have been uniformly standardized and processed for direct use.

创建时间：

2019-04-28

原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料进行搜集和系统化整理的结果，包含以下8个公开闲聊常用语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

所有语料经过统一化规整和处理，包括繁体字转换和对话格式统一，以便直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

使用方法

用户可通过提供的链接一次性下载所有处理好的语料，无需自行搜集和处理。下载后，将解压的raw_chat_corpus文件夹放置在当前目录下，执行python main.py或python3 main.py命令即可生成每个来源的独立.tsv文件，存放于clean_chat_corpus文件夹中。

生成结果

每个来源的语料生成一个独立的.tsv文件，格式为：

query answer

版权说明

本项目为非商业项目，纯搜集和汇总资料，如有侵权，请在issue下留言。

搜集汇总

数据集介绍

构建方式

该数据集的构建采用了对开源项目及多种网络资源的系统化整理和格式统一化处理的方法。具体而言，数据集搜集了多个开源聊天语料及论坛、微博等平台的语料，包括chatterbot、豆瓣多轮、PTT八卦语料等，并对这些语料进行了繁体字转换，以及统一转换为一轮一轮的对话格式，以适应聊天机器人训练的需要。

使用方法

使用该数据集时，用户需先从提供的百度网盘链接中下载语料，并解压至指定目录。随后，通过执行main.py脚本即可启动数据预处理流程，处理完毕后，每个语料来源将生成一个tsv格式的文件，其中每行包含一个query和answer的对话样本。用户可以根据自己的研究或开发需求，直接使用这些处理好的数据。

背景与挑战

背景概述

chinese_chatbot_corpus数据集，是对开源中文聊天语料的搜集和系统化整理工作，旨在为聊天机器人研究提供丰富的语料资源。该数据集创建于近年，由多个开源项目和研究者共同贡献，包含了豆瓣多轮、PTT八卦语料、青云语料等多种来源的语料，总计超过千万条对话记录。主要研究人员或机构虽未明确列出，但项目涉及北航和微软等知名机构。该数据集在中文聊天机器人研究领域具有重要影响力，为相关研究提供了基础数据支撑。

当前挑战

该数据集面临的挑战主要包括：1）领域问题挑战，如何利用这些语料有效提升聊天机器人的自然语言理解和生成能力；2）构建过程中的挑战，如语料的多样性、质量控制和处理繁体字转换等。此外，数据集在处理过程中还需解决噪音问题、语料分词和统一格式等实际问题。

常用场景

经典使用场景

在自然语言处理与人工智能领域，尤其是中文聊天机器人开发中，'chinese_chatbot_corpus'数据集提供了丰富的语料资源，其经典使用场景在于构建与训练能够理解并响应中文用户对话的聊天机器人。该数据集整合了多种来源的语料，包括社交媒体、论坛和聊天记录等，使得研究者和开发者可以在此基础上训练模型，以实现更自然、准确的对话交流。

解决学术问题

该数据集解决了中文聊天机器人研究中遇到的语料分散、质量参差不齐的问题。通过系统的搜集和整理，为学术研究提供了统一格式、可直接使用的语料，极大地降低了数据预处理的工作量，提高了研究的效率。此外，该数据集的多样化来源也有助于提高模型对不同语境的理解能力，增强了学术研究的深度与广度。

实际应用

在实际应用中，'chinese_chatbot_corpus'数据集可用于提升聊天机器人的对话质量和用户体验。企业可以利用该数据集优化客户服务机器人，提供更加智能、人性化的交互服务。同时，教育机构也可利用该数据集进行教学实践，培养学生的自然语言处理能力和人工智能应用开发技能。

数据集最近研究