chinese_chatbot_corpus
收藏github2020-11-19 更新2024-05-31 收录
下载链接:
https://github.com/wysstartgo/chinese_chatbot_corpus
下载链接
链接失效反馈官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料。并对这些语料进行了统一化规整和处理,以便直接使用。
This repository compiles a collection of eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo posts, and Xiao Huangji (Little Yellow Chicken) corpus, along with SMS and White Egret Era Q&A datasets. These corpora have been uniformly organized and processed to facilitate direct usage.
创建时间:
2019-09-24
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料进行搜集和系统化整理的结果,包含以下8个语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
所有语料经过统一化规整和处理,包括繁体字转换和对话格式统一,以便直接使用。
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
| ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
用户需下载语料,解压后将raw_chat_corpus文件夹放到当前目录下,执行python main.py或python3 main.py命令进行处理。
生成结果
每个来源的语料分别生成一个独立的.tsv文件,存放于clean_chat_corpus文件夹下。结果格式为tsv,每行包含query和answer,格式为query answer。
搜集汇总
数据集介绍

构建方式
该数据集的构建过程涉及对多个公开中文聊天语料的搜集与系统化整理。具体而言,数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料以及小黄鸡语料在内的八种常见语料。这些语料经过提取、繁体字转换及统一格式处理,最终形成了一轮一轮的对话形式,便于直接使用。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从社交媒体到论坛、电视剧对白等多种来源的语料。每种语料均保留了其原始特点,如豆瓣多轮语料的低噪音和高质量对话,PTT八卦语料的生活化表达等。此外,数据集还提供了详细的语料来源和特点说明,便于用户根据需求选择合适的语料进行研究和应用。
使用方法
用户可通过提供的百度网盘链接下载数据集,解压后将raw_chat_corpus文件夹放置于当前目录下。通过执行main.py脚本,数据集将自动处理并生成独立的*.tsv文件,存放在clean_chat_corpus文件夹中。每个文件以制表符分隔的格式存储,每行包含一个样本的query和answer,便于用户直接用于聊天机器人的训练和测试。
背景与挑战
背景概述
chinese_chatbot_corpus数据集是一个专注于中文聊天机器人领域的重要资源,由多个开源中文聊天语料库整合而成。该数据集由多位研究人员和机构共同贡献,涵盖了包括豆瓣多轮对话、PTT八卦语料、电视剧对白等多种来源的语料。其创建旨在为中文聊天机器人的开发提供丰富、多样化的训练数据,以支持自然语言处理(NLP)领域的研究与应用。该数据集的整理工作不仅简化了语料的获取与处理流程,还为中文对话系统的开发提供了坚实的基础,推动了中文聊天机器人技术的进步。
当前挑战
chinese_chatbot_corpus数据集在构建与应用过程中面临多重挑战。首先,语料来源的多样性导致数据质量参差不齐,部分语料存在噪音、不雅内容或格式不统一的问题,需进行繁重的清洗与预处理工作。其次,不同语料的对话轮次与结构差异较大,如何统一处理并生成适合模型训练的格式成为一大难题。此外,尽管数据集整合了多种语料,但在实际应用中,仍需解决对话连贯性、上下文理解以及多轮对话建模等核心问题。这些挑战不仅考验数据集的构建质量,也对后续的模型训练与优化提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,chinese_chatbot_corpus数据集为研究人员提供了一个丰富的中文聊天语料库,特别适用于训练和评估聊天机器人模型。该数据集整合了多种来源的对话数据,包括社交媒体、论坛和电视剧对白,使得研究者能够在多样化的语境下测试和优化对话系统的性能。
解决学术问题
该数据集解决了中文聊天机器人开发中的语料稀缺问题,为研究者提供了一个标准化、多样化的语料库。通过整合和统一处理不同来源的对话数据,研究者可以更有效地进行模型训练和性能评估,从而推动中文自然语言处理技术的发展。
衍生相关工作
基于chinese_chatbot_corpus数据集,许多研究工作得以展开,包括对话系统的响应选择、对话生成模型的优化等。这些研究不仅推动了中文聊天机器人技术的发展,也为相关领域的学术研究提供了宝贵的数据支持和参考。
以上内容由遇见数据集搜集并总结生成



