chinese_chatbot_corpus
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/codemayq/chinese_chatbot_corpus
下载链接
链接失效反馈官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等共8个公开闲聊常用语料和短信,白鹭时代问答等语料。并对这些语料进行了统一化规整和处理,以便直接使用。
This repository compiles a collection of eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiao Huangji corpus. Additionally, it includes SMS messages and the Egret Era Q&A corpus. These datasets have been uniformly organized and processed for direct use.
创建时间:
2018-11-04
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包含以下8个公开闲聊常用语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
数据处理过程包括:
- 按照原格式提取各个来源的语料
- 进行繁体字转换
- 统一变成一轮一轮的对话
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
| ptt(PTT八卦语料) | 77W(v1版本42W) | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
用户需下载语料,将解压后的raw_chat_corpus文件夹放到当前目录下,并修改config.py中的raw_chat_corpus_root变量为自己的目录,然后执行main.py脚本。
生成结果
每个来源的语料分别生成一个独立的.tsv文件,存放于clean_chat_corpus文件夹下。结果格式为tsv格式,每行是一个样本,先是query,再是answer。
结果的使用
用户可根据个人需求自主使用生成的数据。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对市面上多种公开的中文聊天语料的系统化搜集与整理。具体而言,数据集整合了来自不同来源的语料,包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料,共计八种。在搜集过程中,对每种语料进行了繁体字转换和格式统一化处理,确保数据的一致性和可用性。
特点
该数据集的主要特点在于其多样性和综合性。它涵盖了多种不同类型的聊天语料,包括社交平台、论坛、电视剧对白等,反映了中文聊天语料的广泛应用场景。此外,数据集经过繁体字转换和格式统一处理,使得数据更加规范,便于直接用于各种自然语言处理任务。
使用方法
使用该数据集时,用户首先需下载并解压语料文件,将其放置在指定目录下,并根据需要修改配置文件中的路径。随后,通过执行main.py脚本,系统将自动处理并生成格式化的tsv文件,便于进一步的数据分析和模型训练。生成的结果文件可用于构建和评估聊天机器人模型,支持多种自然语言处理应用。
背景与挑战
背景概述
在自然语言处理领域,构建高质量的聊天语料库是开发智能对话系统的基础。chinese_chatbot_corpus数据集由codemayq于2018年创建,旨在整合和标准化多种公开的中文聊天语料,包括chatterbot、豆瓣多轮、PTT八卦语料等八个来源。该数据集的构建不仅解决了语料分散和格式不统一的问题,还为研究人员和开发者提供了一个便捷的资源,以支持聊天机器人的开发和研究。通过系统化的整理和处理,该数据集显著提升了中文聊天语料的质量和可用性,对推动中文自然语言处理技术的发展具有重要意义。
当前挑战
尽管chinese_chatbot_corpus数据集在整合和标准化方面取得了显著进展,但仍面临若干挑战。首先,不同来源的语料质量参差不齐,部分语料包含噪音和非标准对话,增加了数据清洗的难度。其次,语料的多样性虽然丰富,但也带来了统一处理的复杂性,特别是在繁体字转换和多轮对话的规范化方面。此外,语料的版权和使用限制也是一个需要谨慎处理的问题,确保在非商业项目中合法使用。最后,如何有效利用这些语料进行模型训练,以提升聊天机器人的自然语言理解和生成能力,仍是一个开放的研究课题。
常用场景
经典使用场景
在自然语言处理领域,chinese_chatbot_corpus数据集被广泛应用于聊天机器人的开发与优化。该数据集整合了多种来源的中文对话语料,包括社交媒体、论坛、电视剧对白等,为研究人员提供了丰富的对话样本。通过这些数据,研究者可以训练和评估对话系统的自然语言理解(NLU)和自然语言生成(NLG)能力,从而提升聊天机器人的交互质量和用户体验。
衍生相关工作
基于chinese_chatbot_corpus数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集训练深度学习模型,以提高对话系统的上下文连贯性和情感理解能力。此外,还有工作探讨了如何利用该数据集进行多轮对话的生成和评估,以及如何结合其他数据源进行跨领域对话系统的开发。这些研究不仅丰富了对话系统的理论基础,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
近年来,中文聊天语料库的研究逐渐聚焦于提升聊天机器人的自然语言理解和生成能力。特别是在多轮对话管理、语境感知和情感分析方面,研究者们致力于通过整合多样化的语料来源,如社交媒体、论坛和电视剧对白,来增强模型的对话连贯性和情感表达能力。此外,随着数据隐私和伦理问题的日益凸显,如何在保证数据质量的同时,确保用户隐私和数据安全,也成为该领域研究的重要方向。这些研究不仅推动了聊天机器人在实际应用中的表现,也为跨文化交流和多语言处理提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



