chaotbot_corpus_Chinese

github2021-11-23 更新2024-05-31 收录

下载链接：

https://github.com/halxp1/chaotbot_corpus_Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These corpora have been uniformly organized and processed for direct use.

创建时间：

2018-11-18

原始信息汇总

数据集概述

数据集内容

该数据集搜集了以下8个公开闲聊常用语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

所有语料经过统一化规整和处理，包括繁体字转换和对话格式统一，以便直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

数据使用方法

下载链接：https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A，提取码：f2ex
解压后将raw_chat_corpus文件夹放置于当前目录下。
执行命令：python main.py 或 python3 main.py

生成结果

格式：tsv，每行包含query和answer，格式为query answer
存放位置：clean_chat_corpus文件夹下，每个来源的语料生成一个独立的*.tsv文件。

搜集汇总

数据集介绍

构建方式

chaotbot_corpus_Chinese数据集的构建过程涉及对多个开源中文聊天语料的系统化搜集与整理。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料在内的八种常见语料。每种语料均按照其原始格式进行提取，随后进行繁体字转换，并统一处理为一轮一轮的对话格式，以便于直接使用。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从社交媒体、论坛到电视剧对白等多种来源的语料，总计超过千万条对话。这些语料不仅数量庞大，而且质量较高，部分语料已经进行了分词处理，减少了使用前的预处理工作。此外，数据集中的对话内容丰富，涵盖了日常生活的多个方面，为聊天机器人的训练提供了丰富的语言环境。

使用方法

使用chaotbot_corpus_Chinese数据集时，用户首先需要从指定的百度网盘链接下载语料包。下载并解压后，将raw_chat_corpus文件夹放置于项目目录下。通过运行main.py脚本，系统会自动处理并生成独立的*.tsv文件，每个文件对应一种语料类型。这些文件以query和answer的格式存储，便于直接用于聊天机器人的训练和测试。用户可以根据具体需求，选择性地使用这些处理后的语料进行模型训练和性能评估。

背景与挑战

背景概述

chaotbot_corpus_Chinese数据集是由多个开源中文聊天语料整合而成，旨在为中文聊天机器人的开发提供统一且易于使用的语料资源。该数据集由多个知名语料库组成，包括豆瓣多轮对话、PTT八卦语料、电视剧对白等，涵盖了广泛的中文对话场景。这些语料经过统一的格式处理和繁体字转换，使得研究者能够直接使用这些数据进行模型训练和评估。该数据集的创建时间不详，但其整合的语料来源多样，涵盖了从社交媒体到影视剧对白的多种对话形式，极大地丰富了中文聊天机器人的训练数据。

当前挑战

chaotbot_corpus_Chinese数据集在构建过程中面临的主要挑战包括语料的质量控制和格式统一。首先，不同来源的语料质量参差不齐，部分语料包含大量噪音，如不雅对话或无关信息，这对数据清洗提出了较高要求。其次，原始语料的格式多样，包括多轮对话、单轮对话等，如何将这些不同格式的语料统一处理为一轮一轮的对话格式，是数据集构建中的一大技术难点。此外，语料的版权问题也需要谨慎处理，确保数据集的合法性和合规性。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，chaotbot_corpus_Chinese数据集为研究者提供了一个丰富的中文聊天语料库，广泛应用于聊天机器人的训练与评估。该数据集整合了多种来源的对话数据，包括社交媒体、论坛和电视剧对白等，为开发多轮对话系统提供了坚实的基础。

衍生相关工作

基于chaotbot_corpus_Chinese数据集，研究者已经开发出多种先进的对话系统模型，如基于深度学习的序列到序列模型和基于注意力机制的对话生成模型。这些模型在提高对话系统的自然度和连贯性方面取得了显著成果，推动了聊天机器人技术的进步。

数据集最近研究