chaotbot_corpus_Chinese
收藏github2020-10-17 更新2024-05-31 收录
下载链接:
https://github.com/xmxoxo/chaotbot_corpus_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些语料进行了统一化规整和处理,以便直接使用。
This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These corpora have been uniformly standardized and processed for immediate use.
创建时间:
2019-03-11
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包括以下8个语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
所有语料经过统一化规整和处理,包括繁体字转换和对话格式统一,以便直接使用。
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮 | 是 |
| ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话 | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
用户需下载语料并解压到指定目录,执行Python脚本进行处理。处理后的数据以tsv格式存储,每行包含query和answer。
生成结果
每个语料生成独立的*.tsv文件,存储在clean_chat_corpus文件夹下,格式为query answer。
搜集汇总
数据集介绍

构建方式
chaotbot_corpus_Chinese数据集的构建过程涉及对多个公开中文聊天语料的系统化搜集与整理。这些语料包括chatterbot、豆瓣多轮、PTT八卦、青云、电视剧对白、贴吧论坛回帖、微博及小黄鸡等八种常见来源。构建过程中,首先从各来源提取原始数据,随后进行繁体字转换,并统一处理为轮次对话格式,确保数据的一致性和可用性。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从社交媒体到论坛、电视剧对白等多种类型的对话内容。每种语料均保留了其原始特点,如豆瓣多轮语料的低噪音和高轮次对话,PTT八卦语料的生活化表达等。此外,数据集经过统一处理,便于直接用于模型训练和测试,无需额外格式转换。
使用方法
使用chaotbot_corpus_Chinese数据集时,用户需从指定链接下载已处理好的语料包,并按照提供的目录结构放置于项目目录下。通过运行main.py脚本,可以生成独立的*.tsv文件,每个文件对应一种语料类型,格式为每行一个样本,包含query和answer。这些文件可直接用于聊天机器人的训练和评估,支持多种自然语言处理任务。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集是一个系统化整理的中文聊天语料库,旨在为中文聊天机器人的开发提供丰富的语料资源。该数据集由多个开源项目整合而成,涵盖了豆瓣多轮对话、PTT八卦语料、电视剧对白、贴吧论坛回帖、微博等多种来源的语料。数据集的主要研究人员或机构并未明确提及,但其整合了来自北航、微软、华为等机构的研究成果。该数据集的创建时间为近年来,具体时间不详,但其对中文自然语言处理领域的影响力显著,特别是在多轮对话生成和聊天机器人开发方面。通过统一的格式处理和繁体字转换,该数据集为研究者提供了一个便捷的语料获取和处理平台。
当前挑战
chaotbot_corpus_Chinese数据集在构建过程中面临了多方面的挑战。首先,语料来源的多样性导致数据格式和质量的差异较大,需要进行复杂的统一化处理。其次,部分语料存在噪音和不规范内容,如不雅对话或非严谨的对话形式,这增加了数据清洗的难度。此外,繁体字与简体字的转换也是一个技术难点,尤其是在保持语义一致性的前提下进行转换。在应用层面,该数据集旨在解决中文聊天机器人开发中的多轮对话生成和自然语言理解问题,但由于语料的多样性和复杂性,如何有效利用这些数据进行模型训练仍是一个挑战。特别是在处理多轮对话时,如何保持上下文连贯性和语义一致性,仍需进一步的研究和优化。
常用场景
经典使用场景
在自然语言处理领域,chaotbot_corpus_Chinese数据集被广泛应用于中文聊天机器人的训练和评估。该数据集整合了多种来源的中文对话语料,包括社交媒体、论坛、电视剧对白等,为研究者提供了一个丰富且多样化的语言环境,使得模型能够更好地理解和生成自然语言。
实际应用
在实际应用中,chaotbot_corpus_Chinese数据集被用于开发智能客服系统、社交媒体自动回复工具以及教育领域的语言学习助手。这些应用不仅提高了用户体验,还显著降低了企业的运营成本。通过使用该数据集,开发者能够训练出更加智能和人性化的聊天机器人,满足不同场景下的需求。
衍生相关工作
基于chaotbot_corpus_Chinese数据集,许多经典的研究工作得以展开。例如,研究者利用该数据集开发了基于深度学习的对话生成模型,显著提升了对话系统的自然度和连贯性。此外,该数据集还被用于评估不同对话模型的性能,推动了中文自然语言处理技术的进步。
以上内容由遇见数据集搜集并总结生成



