chinese_chatbot_corpus

github2023-07-02 更新2024-05-31 收录

下载链接：

https://github.com/waylybaye/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository collects 8 publicly available open-domain chitchat corpora, specifically ChatterBot, Douban Multi-turn Conversation Corpus, PTT Gossip Corpus, Qingyun Corpus, TV Series Dialogue Corpus, Post Corpus from Tieba and Forums, Weibo Corpus and Xiaohuangji Corpus, along with short message corpora and Egret Era Question Answering Corpus and other similar datasets. All these corpora have been uniformly standardized and preprocessed for direct out-of-the-box utilization.

创建时间：

2019-05-08

原始信息汇总

数据集概述

该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理工作，包含以下8个语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

这些语料已经进行了统一化规整和处理，可以直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	语料样例	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	Q:你会开心的 A:幸福不是真正的可预测的情绪。	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	Q:烟台十一哪好玩 A:哪都好玩 · · · ·	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	Q:为什么乡民总是欺负国高中生呢QQ A:如果以为选好科系就会变成比尔盖兹那不如退学吧	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	Q:看来你很爱钱 A:噢是吗？那么你也差不多了	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	Q:京戏里头的人都是不自由的 A:他们让人拿笼子给套起来了了	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	Q:前排，鲁迷们都起床了吧 A:标题说助攻，但是看了那球，真是活生生的讽刺了	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	Q:北京的小纯洁们，周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛，看着小纯洁撸么。	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	Q:你谈过恋爱么 A:谈过，哎，别提了，伤心..。	否

使用方法

下载语料：https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码：f2ex
将解压后的raw_chat_corpus文件夹放到当前目录下。
执行命令： bash python main.py

或者 bash python3 main.py

生成结果

每个来源的语料分别生成一个独立的*.tsv文件，都放在新生成的clean_chat_corpus文件夹下。生成结果格式为tsv格式，每行是一个样本，先是query，再是answer。

版权说明

本项目为非商业项目，为纯搜集和汇总资料，如有侵权，请在issue下留言。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程涉及对多个公开中文聊天语料的搜集与系统化整理。具体而言，数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料以及小黄鸡语料在内的八种常见语料。每种语料均按照其原始格式进行提取，随后进行繁体字转换，并统一处理为一轮一轮的对话形式，以便于直接使用。

使用方法

用户可通过提供的百度网盘链接下载所有语料，解压后将`raw_chat_corpus`文件夹放置于当前目录下。通过执行`main.py`脚本，系统将自动处理并生成独立的`.tsv`文件，每个文件对应一个语料来源。生成的`.tsv`文件格式为每行一个样本，包含`query`和`answer`两部分，用户可根据需求自主使用这些数据。

背景与挑战

背景概述

chinese_chatbot_corpus数据集是一个系统化整理的中文聊天语料库，旨在为中文聊天机器人的开发提供丰富的数据支持。该数据集由多个开源项目整合而成，包括chatterbot、豆瓣多轮、PTT八卦语料等，涵盖了从社交媒体到电视剧对白的多样化语料。数据集的主要研究人员或机构并未明确提及，但其整合工作体现了对中文自然语言处理领域的深刻理解。该数据集的创建时间为近年来，随着中文聊天机器人需求的增长，其影响力逐渐扩大，成为该领域研究的重要资源。

当前挑战

chinese_chatbot_corpus数据集面临的挑战主要包括语料质量的统一性和多样性问题。首先，不同来源的语料在格式、语言风格和噪音水平上存在显著差异，这要求数据集构建过程中进行复杂的预处理和标准化工作。其次，尽管数据集涵盖了广泛的语料类型，但如何确保这些语料能够全面反映中文聊天场景的多样性仍是一个挑战。此外，数据集的构建还面临着版权和隐私问题，尤其是在处理来自社交媒体和论坛的语料时，需要严格遵守相关法律法规，确保数据的合法使用。

常用场景

经典使用场景

在自然语言处理领域，chinese_chatbot_corpus数据集广泛应用于中文聊天机器人的训练与评估。该数据集整合了多个来源的中文对话语料，涵盖了从社交媒体到电视剧对白的多样化内容，为研究者提供了一个丰富的语言环境，用于开发和测试聊天机器人的对话生成与理解能力。

解决学术问题

该数据集解决了中文聊天机器人研究中语料分散、格式不统一的问题。通过整合和标准化处理，研究者可以更专注于模型的设计与优化，而不必耗费大量时间在数据预处理上。此外，该数据集的多轮对话特性为研究对话连贯性和上下文理解提供了宝贵的资源。

实际应用

在实际应用中，chinese_chatbot_corpus数据集被用于训练智能客服系统、社交媒体自动回复工具以及个性化聊天助手。这些应用场景要求系统能够理解并生成自然、连贯的中文对话，而该数据集的多样性和规模正好满足了这一需求。

数据集最近研究