chaotbot_corpus_Chinese

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/codemayq/chaotbot_corpus_Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料。并对8个常见语料的数据进行了统一化规整和处理，达到直接可以粗略使用的目的。

This repository compiles a collection of eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo posts, and Xiao Huangji (Little Yellow Chicken) corpus, along with SMS and Egret Era Q&A data. The data from these eight common corpora has been uniformly standardized and processed, making it readily usable for preliminary applications.

创建时间：

2018-11-04

原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理，包含以下8个公开闲聊常用语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

数据处理过程包括：

提取各个来源的语料
进行繁体字转换
统一变成一轮一轮的对话

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	是
ptt（PTT八卦语料）	77W（v1版本42W）	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

生成结果

每个来源的语料生成独立的*.tsv文件
文件存放在clean_chat_corpus文件夹下
格式为：query answer

搜集汇总

数据集介绍

构建方式

该数据集的构建过程涉及对市面上多种开源中文聊天语料的系统化搜集与整理。具体而言，数据集整合了来自chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料及小黄鸡语料等八个主要来源的语料。在搜集过程中，首先对各来源的原始数据进行了格式提取，随后进行了繁体字转换，最终将所有语料统一为一轮一轮的对话格式，以便于直接使用。

特点

该数据集的主要特点在于其广泛性和多样性。它涵盖了从高质量的chatterbot语料到生活化的青云语料，以及包含噪音的微博和贴吧语料，提供了丰富的对话样本。此外，数据集还特别处理了繁体字，确保了语料的统一性。每个语料的样本数量从数万到数百万不等，满足了不同研究需求。

使用方法

使用该数据集时，用户需首先下载并解压语料，然后将解压后的文件夹放置于指定目录。接着，修改config.py中的路径变量，并运行main.py脚本进行数据处理。处理后的结果将以tsv格式存储，每行包含一个查询和对应的回答，便于后续分析和模型训练。用户可根据个人需求，灵活使用生成的数据文件。

背景与挑战

背景概述

chaotbot_corpus_Chinese数据集是由codemayq于2018年创建，旨在系统化整理和统一市面上已有的开源中文聊天语料。该数据集汇集了来自多个来源的语料，包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料，共计八种。这些语料经过繁体字转换和格式统一处理，以支持直接使用。此数据集的创建不仅简化了语料的获取和处理流程，还为中文聊天机器人的研究和开发提供了丰富的资源，推动了该领域的发展。

当前挑战

尽管chaotbot_corpus_Chinese数据集为中文聊天机器人的研究提供了便利，但其构建过程中仍面临多项挑战。首先，不同来源的语料质量参差不齐，部分语料包含噪音，如不雅对话和非标准语言，这增加了数据清洗的难度。其次，语料的多样性导致格式和编码的差异，需要进行繁体字转换和统一化处理，以确保数据的一致性。此外，数据集的规模庞大，处理和存储这些数据对计算资源提出了较高要求。最后，语料的版权问题和隐私保护也是不可忽视的挑战，需确保在非商业用途下合法使用。

常用场景

经典使用场景

在自然语言处理领域，chaotbot_corpus_Chinese数据集的经典使用场景主要集中在聊天机器人的开发与优化。该数据集通过整合多种来源的中文聊天语料，为研究人员和开发者提供了丰富的对话样本，从而支持构建和训练更加智能和自然的聊天机器人。这些语料涵盖了从日常对话到特定领域的专业对话，使得聊天机器人能够在不同情境下进行有效的交互。

衍生相关工作

基于chaotbot_corpus_Chinese数据集，许多研究工作得以展开，推动了聊天机器人领域的技术进步。例如，有研究者利用该数据集训练深度学习模型，以提高聊天机器人的对话生成质量；还有研究聚焦于对话系统的多轮交互能力，通过分析数据集中的多轮对话样本，提出了新的对话管理策略。这些衍生工作不仅丰富了聊天机器人的功能，也为其在实际应用中的表现提供了理论支持。

数据集最近研究