chinese_chatbot_corpus

github2019-12-29 更新2024-05-31 收录

下载链接：

https://github.com/Wall-ee/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料共8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository compiles a collection of eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiao Huangji corpus. Additionally, it incorporates other datasets such as SMS messages and Egret Times Q&A. These datasets have been uniformly organized and processed to facilitate direct usage.

创建时间：

2019-11-27

原始信息汇总

数据集概述

数据集内容

本数据集是对市面上已有的开源中文聊天语料进行搜集和系统化整理的结果，包含以下8个公开闲聊常用语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

所有语料已经经过统一化规整和处理，包括繁体字转换和对话轮次的统一，以便直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

使用方法

用户可以通过提供的链接一次性下载所有语料，并按照提供的目录结构和命令进行处理。

生成结果

每个来源的语料分别生成一个独立的*.tsv文件，格式为每行一个样本，先是query，再是answer，如：

query answer

版权说明

本项目为非商业项目，为纯搜集和汇总资料，如有侵权，请在issue下留言。

搜集汇总

数据集介绍

构建方式

该数据集的构建采用对开源项目中现有中文聊天语料的搜集与整理方法，涵盖了不同来源的聊天记录，包括开源项目、论坛、社交媒体等。通过提取原始数据，进行繁体字转换，并统一整理为对话格式，实现了数据的规范化和可用性提升。

特点

此数据集的特点在于整合了多种来源的中文聊天语料，不仅数量丰富，而且经过了统一化规整和处理，降低了使用者的预处理负担。各语料具有不同的特点，如豆瓣多轮语料噪声相对较少，而PTT八卦语料则贴近台湾地区生活化语言。此外，数据集涵盖了从社交媒体到论坛的不同交流场景，有助于研究者进行多元化的文本分析和模型训练。

使用方法

使用该数据集时，用户需先从提供的百度网盘链接下载语料，并解压至指定目录。随后，通过执行主程序脚本，即可处理并生成TSV格式的清洁语料文件。用户可根据自身需求，对这些处理后的语料进行进一步的分析和应用。

背景与挑战

背景概述

chinese_chatbot_corpus数据集的构建，是对中文聊天机器人领域内开源聊天语料的搜集与整合。该数据集的创建旨在方便研究人员和开发者获取多样化的中文聊天语料，以促进聊天机器人技术的发展。自整理以来，该数据集已成为中文自然语言处理领域重要的资源之一，为相关研究提供了丰富的数据基础。该项目由多位开源项目贡献者共同维护，始于对市面上现有中文聊天语料的整合需求，其影响力在中文聊天机器人研究领域逐渐显现。

当前挑战

该数据集面临的挑战主要在于：1）领域问题挑战，即如何利用这些语料有效提升聊天机器人的对话质量和自然度；2）构建过程中的挑战，包括语料的多样性、质量控制和噪音处理。尽管该数据集涵盖了多种来源和类型的语料，但不同来源的语料质量和格式不一，存在噪音和未分词的问题，这为语料的预处理和使用增加了难度。此外，数据集的规模和多样性也对聊天机器人模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

chinese_chatbot_corpus作为中文聊天机器人的基础语料库，其经典使用场景主要在于训练和评估聊天机器人的对话生成能力。该数据集整合了多种来源的中文对话数据，有助于研究者构建更加贴近真实人类对话的聊天机器人。

衍生相关工作

基于chinese_chatbot_corpus，研究者们衍生出了一系列相关工作，如对话系统的优化、情感分析、用户意图识别等，这些研究进一步扩展了该数据集的应用范围，促进了中文聊天机器人技术的进步和产业发展。

数据集最近研究