chaotbot_corpus_Chinese

github2019-07-06 更新2024-05-31 收录

下载链接：

https://github.com/MarkWh1te/chaotbot_corpus_Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些数据进行了统一化规整和处理，以便直接使用。

This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These datasets have been uniformly organized and processed for direct use.

创建时间：

2019-03-14

原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理，包含以下8个公开闲聊常用语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

所有语料经过统一化规整和处理，包括繁体字转换和对话格式统一，以便直接使用。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

使用方法

用户可以通过下载链接获取所有语料，解压后放置在指定目录下，并通过执行python main.py或python3 main.py命令进行处理。

生成结果

处理后的数据以tsv格式存储在clean_chat_corpus文件夹下，每行包含一个样本，格式为query answer。

搜集汇总

数据集介绍

构建方式

chaotbot_corpus_Chinese数据集的构建，是通过搜集整合市面上已有的开源中文聊天语料，包含chatterbot、豆瓣多轮等八个常用语料和短信，白鹭时代问答等语料。对这八个常见语料的数据进行统一化规整和处理，使其达到可以直接粗略使用的目的。

特点

该数据集的显著特点在于其整合了多种来源的中文聊天语料，既包括了质量较高的chatterbot语料，也涵盖了生活化的ptt、青云等语料，丰富了数据集的多样性。此外，该数据集经过统一化规整和处理，用户无需自行搜集和格式转换，方便快捷。

使用方法

使用该数据集首先需要下载语料，解压后将raw_chat_corpus文件夹放到当前目录下。通过执行python main.py命令，即可生成每个来源的语料对应的*.tsv文件，存放于新生成的clean_chat_corpus文件夹下。用户可根据自身需求自主使用这些处理后的数据。

背景与挑战

背景概述

chaotbot_corpus_Chinese数据集，是对当前市场上开源中文聊天语料的搜集与整理。该数据集涵盖了多个来源的语料，包括chatterbot、豆瓣多轮、PTT八卦语料等，旨在为研究者和开发者提供便捷的语料资源，以促进中文聊天机器人技术的发展。该数据集的创建，体现了对中文自然语言处理领域需求的深刻理解，为相关研究提供了丰富的数据支撑。自发布以来，该数据集在学术界和工业界产生了广泛的影响，推动了中文聊天机器人技术的进步。

当前挑战

尽管chaotbot_corpus_Chinese数据集为中文聊天机器人研究提供了有力的支持，但在使用过程中也面临一些挑战。首先，数据集的多样性和质量参差不齐，对研究结果的准确性和可靠性可能产生影响。其次，数据集在构建过程中，由于语料来源的广泛性，存在噪音和重复数据，需要进一步清洗和去重。此外，部分语料含有敏感和不雅对话，对研究伦理和数据处理提出了更高要求。

常用场景

经典使用场景

chaotbot_corpus_Chinese作为中文聊天语料库的集大成者，其经典使用场景主要集中于自然语言处理领域，尤其是在构建和训练聊天机器人、对话系统时，提供了丰富多样的对话样本，助力于模型理解和生成自然语言的能力。

实际应用

在实际应用中，chaotbot_corpus_Chinese可被用于提升聊天机器人的对话质量，增强用户体验，同时，也为广告投放、市场分析、舆情监控等领域提供了强有力的数据支持。

衍生相关工作

基于该数据集，研究者们衍生出了众多相关的工作，如情感分析模型的构建、对话生成策略的优化、多轮对话系统的设计等，推动了中文自然语言处理领域的研究进展和技术突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集