chinese_chatbot_corpus

github2020-02-26 更新2024-05-31 收录

下载链接：

https://github.com/csuldw/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo posts, and Xiao Huangji corpus, along with SMS messages and White Egret era Q&A data. These datasets have been uniformly standardized and processed for immediate use.

创建时间：

2019-10-24

原始信息汇总

数据集概述

数据集内容

该数据集搜集并整理了以下8个公开的中文聊天语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

所有语料经过统一化规整和处理，包括繁体字转换和对话轮次的统一，以便直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

使用方法

用户可以通过下载链接获取所有统一下载好的语料，并按照提供的目录结构和命令进行操作。

生成结果

每个来源的语料生成独立的*.tsv文件，存放于clean_chat_corpus文件夹下。文件格式为tsv，每行包含query和answer，格式为query answer。

搜集汇总

数据集介绍

构建方式

该数据集的构建主要通过对市面上现有的开源中文聊天语料进行搜集和系统化整理。具体而言，研究者从不同来源提取了八种常用的闲聊语料和短信，包括豆瓣多轮、PTT八卦语料、青云语料等，并对其进行繁体字转换以及统一格式化处理，使其达到可直接粗略使用的程度。

使用方法

使用该数据集时，用户需先从提供的百度网盘链接下载语料，并解压至指定目录。之后，通过执行main.py脚本，即可处理并生成TSV格式的干净语料文件，每行包含一个query和answer的对话样本。用户可以根据自身需求，对这些数据进行进一步的加工和应用。

背景与挑战

背景概述

chinese_chatbot_corpus数据集的构建，是在人工智能领域对中文聊天机器人技术的研究和应用日益增长的背景下产生的。该数据集由多个开源项目和研究机构提供的数据汇集而成，创建于近年来，主要研究人员和机构不详。该数据集的核心研究问题是提高中文聊天机器人的对话质量和交互体验。它的出现对中文自然语言处理领域，尤其是在聊天机器人模型的训练与优化方面，产生了重要的影响。

当前挑战

该数据集在研究领域面临的挑战主要包括：1)领域问题方面，如何通过数据集训练出能够准确理解和生成自然语言，同时具备应对复杂多轮对话能力的聊天机器人模型；2)构建过程中的挑战，包括语料的多样性和质量控制，不同来源的语料在格式、质量和语言风格上的统一化处理，以及语料中的噪音和不当内容的过滤。

常用场景

经典使用场景

chinese_chatbot_corpus数据集是中文自然语言处理领域的重要资源，其经典使用场景主要集中于构建和训练中文聊天机器人。通过该数据集，研究者能够获取到丰富的中文对话样本，进而优化机器人的语言理解与生成能力，实现更加自然、流畅的人机对话。

解决学术问题

该数据集的整合与预处理，有效解决了学术研究中对于大规模、高质量中文对话语料的迫切需求。它不仅降低了数据收集和清洗的难度，还提供了多样化的语料来源，有助于研究者探索不同社交平台上的语言特点，促进了对中文对话系统的性能提升和对话质量的研究。

实际应用

在实际应用中，chinese_chatbot_corpus数据集被广泛应用于社交媒体管理、智能客服系统、情感分析等领域。它为开发提供了真实场景下的语言样本，有助于提升系统的用户体验，降低人工客服成本，增强自动化服务的准确性和有效性。

数据集最近研究