chaotbot_corpus_Chinese

github2021-04-06 更新2024-05-31 收录

下载链接：

https://github.com/fighting41love/chaotbot_corpus_Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository compiles eight publicly available conversational corpora, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A corpora. These corpora have been uniformly organized and processed for direct use.

创建时间：

2019-03-07

原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理，包含以下8个公开闲聊常用语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

所有语料经过统一化规整和处理，包括繁体字转换和对话格式统一，以便直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

使用方法

用户需下载语料并解压至指定目录，执行python main.py或python3 main.py命令进行处理。

生成结果

每个来源的语料生成独立的*.tsv文件，存放于clean_chat_corpus文件夹下，格式为query answer。

搜集汇总

数据集介绍

构建方式

chaotbot_corpus_Chinese数据集的构建基于对多个开源中文聊天语料的系统化搜集与整理。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的八种常见语料，涵盖了从社交媒体到电视剧对白的广泛领域。构建过程中，首先从各来源提取原始语料，随后进行繁体字转换，并统一格式化为轮次对话，确保数据的一致性和可用性。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从社交媒体到电视剧对白的多种语境，提供了丰富的对话样本。数据集中的语料经过统一处理，格式一致，便于直接使用。此外，数据集中的对话样本既有单轮也有多轮对话，能够满足不同研究需求。尽管部分语料存在噪音，但整体质量较高，适合用于训练和评估聊天机器人模型。

使用方法

使用chaotbot_corpus_Chinese数据集时，用户需首先从指定链接下载语料文件，并将解压后的文件夹放置于项目目录中。通过运行提供的Python脚本，数据集将自动处理并生成独立的TSV文件，每个文件对应一个语料来源。生成的TSV文件格式简洁，每行包含一个对话样本，便于进一步的数据分析和模型训练。用户可根据具体需求，灵活选择和使用不同来源的语料进行实验和研究。

背景与挑战

背景概述

chaotbot_corpus_Chinese数据集是一个专注于中文聊天语料的综合性资源库，由多位研究人员和开源社区共同贡献。该数据集创建于近年来，旨在为中文聊天机器人的开发提供丰富、多样的语料支持。数据集整合了来自多个公开来源的语料，包括豆瓣多轮对话、PTT八卦论坛、电视剧对白等，涵盖了广泛的生活场景和语言风格。通过统一的格式处理和规范化，该数据集为研究人员和开发者提供了一个便捷的起点，极大地推动了中文自然语言处理领域的研究与应用。

当前挑战

chaotbot_corpus_Chinese数据集在构建过程中面临多重挑战。首先，语料来源多样且格式不一，需进行复杂的格式转换和统一化处理，以确保数据的一致性和可用性。其次，部分语料存在噪音问题，如不规范的表达、不雅内容等，需通过人工或自动化手段进行清洗和过滤。此外，多轮对话语料的上下文关联性较强，如何有效提取和保留对话的连贯性也是一个技术难点。最后，数据集的版权问题需谨慎处理，确保所有语料的合法使用，避免潜在的侵权风险。这些挑战不仅考验了数据处理的技术能力，也对数据集的长期维护提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，chatbot_corpus_Chinese数据集被广泛应用于中文聊天机器人的训练和评估。该数据集整合了多个来源的中文对话语料，涵盖了从社交媒体到电视剧对白的多样化内容，为研究者提供了一个丰富的语言环境，用以训练模型理解和生成自然语言。

解决学术问题

该数据集解决了中文自然语言处理领域中的一大难题，即缺乏统一且多样化的训练语料。通过整合和标准化处理，研究者可以更有效地进行模型训练，提高聊天机器人的对话质量和自然度，从而推动中文自然语言处理技术的发展。

衍生相关工作

基于chatbot_corpus_Chinese数据集，研究者们开发了多种先进的对话系统模型，如基于深度学习的生成式对话模型和检索式对话模型。这些模型在多个公开评测中取得了优异的成绩，进一步推动了中文自然语言处理技术的创新和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集