chinese_chatbot_corpus
收藏github2019-08-15 更新2024-05-31 收录
下载链接:
https://github.com/yespon/chinese_chatbot_corpus
下载链接
链接失效反馈官方服务:
资源简介:
该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作,包含8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些语料进行了统一化规整和处理,以便直接使用。
This repository represents a comprehensive collection and systematic organization of currently available open-source Chinese conversational corpora. It encompasses eight publicly accessible datasets commonly used for casual dialogue and text messaging, including the Egret Era Q&A corpus. These corpora have been uniformly standardized and processed to facilitate immediate utilization.
创建时间:
2019-08-15
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包含以下8个公开闲聊常用语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
所有语料经过统一化规整和处理,包括繁体字转换和对话格式统一,以便直接使用。
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
| ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
数据使用
数据集已统一下载并存储,用户可通过提供的链接一次性下载所有语料。下载后,需将解压后的raw_chat_corpus文件夹放置于当前目录下,并通过执行python main.py或python3 main.py命令进行处理。
生成结果
处理后,每个来源的语料将生成独立的.tsv文件,存放于clean_chat_corpus文件夹下。文件格式为每行一个样本,先是query,再是answer,格式为query answer。
搜集汇总
数据集介绍

构建方式
在构建chinese_chatbot_corpus数据集时,研究者从多个公开渠道搜集了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的八种中文聊天语料。这些语料经过提取、繁体字转换及统一格式化处理,最终整合为一轮一轮的对话形式,确保了数据的直接可用性和一致性。
特点
该数据集涵盖了广泛的中文聊天场景,从社交媒体到论坛讨论,内容丰富多样。每种语料均保留了其原始特点,如豆瓣多轮语料的低噪音和高轮次对话,以及PTT八卦语料的生活化和繁体字特性。数据集的总量庞大,提供了丰富的语言模式和对话样本,非常适合用于训练和测试中文聊天机器人。
使用方法
用户首先需从指定链接下载数据集,并将解压后的文件夹放置于项目目录下。通过运行提供的Python脚本,数据集将被处理并生成独立的TSV文件,每个文件包含查询和回答的对话对。这些文件可直接用于模型训练或其他自然语言处理任务,为开发者提供了极大的便利。
背景与挑战
背景概述
在人工智能与自然语言处理领域,中文聊天机器人的开发与研究一直面临着语料稀缺与质量参差不齐的挑战。chinese_chatbot_corpus数据集应运而生,由多位研究人员与开源社区共同构建,旨在系统化整理与统一处理市面上已有的开源中文聊天语料。该数据集涵盖了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料及小黄鸡语料在内的八大类语料,共计超过千万条对话数据。通过对这些语料的统一化规整与处理,该数据集为中文聊天机器人的训练与评估提供了丰富且多样化的资源,极大地推动了相关领域的研究进展。
当前挑战
chinese_chatbot_corpus数据集在构建与应用过程中面临多重挑战。首先,语料来源的多样性与复杂性导致数据质量参差不齐,部分语料存在噪音、不雅对话及格式不统一等问题,需进行繁重的预处理工作。其次,尽管数据集对语料进行了统一化处理,但不同语料之间的风格、语境及语言习惯差异显著,如何在保持语料多样性的同时确保数据的一致性与可用性,仍是一个亟待解决的问题。此外,中文聊天机器人在实际应用中还需应对敏感词处理、上下文理解及多轮对话管理等复杂问题,这些挑战均对数据集的构建与使用提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,chinese_chatbot_corpus数据集被广泛用于训练和评估中文聊天机器人。该数据集整合了多种来源的中文对话语料,包括社交媒体、论坛、电视剧对白等,为研究者提供了一个丰富且多样化的语言环境。通过使用这些语料,研究人员能够开发出更加自然和流畅的对话系统,从而提升用户体验。
实际应用
在实际应用中,chinese_chatbot_corpus数据集被用于开发各种商业和社交聊天机器人。这些机器人广泛应用于客户服务、社交媒体互动、娱乐和教育等领域。通过利用该数据集中的多样化对话语料,开发者能够创建出更加智能和适应性强的聊天机器人,从而满足不同用户的需求和偏好。
衍生相关工作
基于chinese_chatbot_corpus数据集,研究者们已经开发出多种先进的对话系统和自然语言处理模型。这些工作包括但不限于对话生成模型、情感分析算法和多轮对话管理系统。这些衍生工作不仅推动了中文聊天机器人技术的发展,也为全球自然语言处理领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



