chaotbot_corpus_Chinese

github2023-03-20 更新2024-05-31 收录

下载链接：

https://github.com/cliuxinxin/chaotbot_corpus_Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料共8个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些数据进行了统一化规整和处理，以便直接使用。

This repository compiles a collection of eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiao Huangji corpus. Additionally, it incorporates other datasets such as SMS messages and Egret Times Q&A. These datasets have been uniformly organized and processed for direct use.

创建时间：

2018-12-01

原始信息汇总

数据集概述

数据集下载

下载地址: https://pan.baidu.com/s/1HlxwgryXZBfuVljzGxd-6A
密码: 67iq

数据格式

格式说明: 每行是一个样本，包含query和answer，格式为query answer。

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	语料样例	是否已分词	对应文件
chatterbot	560	开源项目	按类型分类，质量较高	Q:你会开心的 A:幸福不是真正的可预测的情绪。	否	chatterbot.tsv.zip
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮（平均7.6轮）	Q:烟台十一哪好玩 A:哪都好玩 · · · ·	是	douban_single_turn.tsv.zip
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	Q:为什么乡民总是欺负国高中生呢QQ A:如果以为选好科系就会变成比尔盖兹那不如退学吧	否	ptt.tsv.zip
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	Q:看来你很爱钱 A:噢是吗？那么你也差不多了	否	qingyun.tsv.zip
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话，原本是多轮（平均5.3轮）	Q:京戏里头的人都是不自由的 A:他们让人拿笼子给套起来了了	否	subtitle.tsv.zip
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	Q:前排，鲁迷们都起床了吧 A:标题说助攻，但是看了那球，真是活生生的讽刺了	否	tieba.tsv.zip
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	Q:北京的小纯洁们，周日见。#硬汉摆拍清纯照# A:嗷嗷大湿的左手在干嘛，看着小纯洁撸么。	否	weibo.tsv.zip
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	Q:你谈过恋爱么 A:谈过，哎，别提了，伤心..。	否	xiaohuangji.tsv.zip

语料原始URL

语料名称	语料原始URL
chatterbot	https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese
douban（豆瓣多轮）	https://github.com/MarkWuNLP/MultiTurnResponseSelection
ptt（PTT八卦语料）	https://github.com/zake7749/Gossiping-Chinese-Corpus
qingyun（青云语料）	无
subtitle（电视剧对白语料）	https://github.com/fateleak/dgk_lost_conv
tieba（贴吧论坛回帖语料）	https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密码:i4si
weibo（微博语料）	61.93.89.94/Noah_NRM_Data/
xiaohuangji（小黄鸡语料）	https://github.com/candlewill/Dialog_Corpus

搜集汇总

数据集介绍

构建方式

chaotbot_corpus_Chinese数据集的构建基于多个公开的闲聊语料库，包括chatterbot、豆瓣多轮、PTT八卦语料等。这些语料经过统一的预处理和规整，确保了数据的一致性和可用性。每个语料库的数据被分别下载并处理，最终以每行一个样本的形式存储，格式为query和answer，中间以制表符分隔。

特点

该数据集涵盖了多样化的对话场景，从生活化的闲聊到电视剧对白，内容丰富且具有较高的实用性。数据集中的语料质量参差不齐，部分语料经过分词处理，而部分则保留了原始格式。此外，数据集中的对话涵盖了简体中文和繁体中文，适用于不同的研究和应用场景。

使用方法

chaotbot_corpus_Chinese数据集可直接用于训练和评估聊天机器人模型。用户可以根据需求选择特定的语料库进行下载和使用。每行数据包含一个query和对应的answer，适合用于对话生成、对话匹配等任务。此外，数据集的使用方法灵活，用户可以根据具体的研究目标进行进一步的数据清洗和预处理。

背景与挑战

背景概述

chaotbot_corpus_Chinese数据集是一个专注于中文闲聊对话的语料库，由多个开源项目整合而成，涵盖了包括豆瓣多轮对话、PTT八卦语料、电视剧对白等多种来源的对话数据。该数据集的创建旨在为中文聊天机器人的开发提供丰富的训练资源，特别是在自然语言处理和对话系统领域。数据集的主要贡献者包括来自北航、微软等机构的研究人员，以及多个开源社区的开发者。通过整合和预处理，该数据集为研究者提供了一个可直接使用的对话语料库，极大地推动了中文对话系统的研究与应用。

当前挑战

chaotbot_corpus_Chinese数据集在构建和应用过程中面临多重挑战。首先，数据来源的多样性导致了语料质量的参差不齐，部分语料存在噪音和不规范表达，这对模型的训练效果提出了较高要求。其次，数据集的预处理工作较为复杂，尤其是在多轮对话的拆分和单轮对话的提取过程中，如何保持对话的连贯性和语义完整性是一个技术难点。此外，数据集的版权问题也需谨慎处理，确保所有语料的合法使用。最后，尽管数据集规模较大，但在实际应用中，如何有效利用这些数据来提升聊天机器人的对话质量和用户体验，仍是一个亟待解决的问题。

常用场景

经典使用场景

在自然语言处理领域，chaotbot_corpus_Chinese数据集被广泛应用于训练和评估聊天机器人模型。该数据集包含了多样化的对话语料，涵盖了从日常闲聊到特定主题的讨论，为研究者提供了一个丰富的资源来模拟真实世界的对话场景。通过使用这些数据，研究者能够开发出更加智能和人性化的对话系统。

衍生相关工作

基于chaotbot_corpus_Chinese数据集，许多研究者和开发者已经开展了相关的研究和项目。例如，有研究利用该数据集训练了基于深度学习的对话生成模型，这些模型能够生成更加流畅和自然的对话。此外，也有项目专注于对话系统的个性化设置和情感分析，进一步推动了聊天机器人技术的发展。

数据集最近研究