chaotbot_corpus_Chinese
收藏github2019-07-06 更新2024-05-31 收录
下载链接:
https://github.com/MarkWh1te/chaotbot_corpus_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些数据进行了统一化规整和处理,以便直接使用。
This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These datasets have been uniformly organized and processed for direct use.
创建时间:
2019-03-14
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包含以下8个公开闲聊常用语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
所有语料经过统一化规整和处理,包括繁体字转换和对话格式统一,以便直接使用。
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
| ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
用户可以通过下载链接获取所有语料,解压后放置在指定目录下,并通过执行python main.py或python3 main.py命令进行处理。
生成结果
处理后的数据以tsv格式存储在clean_chat_corpus文件夹下,每行包含一个样本,格式为query answer。
搜集汇总
数据集介绍

构建方式
chaotbot_corpus_Chinese数据集的构建,是通过搜集整合市面上已有的开源中文聊天语料,包含chatterbot、豆瓣多轮等八个常用语料和短信,白鹭时代问答等语料。对这八个常见语料的数据进行统一化规整和处理,使其达到可以直接粗略使用的目的。
特点
该数据集的显著特点在于其整合了多种来源的中文聊天语料,既包括了质量较高的chatterbot语料,也涵盖了生活化的ptt、青云等语料,丰富了数据集的多样性。此外,该数据集经过统一化规整和处理,用户无需自行搜集和格式转换,方便快捷。
使用方法
使用该数据集首先需要下载语料,解压后将raw_chat_corpus文件夹放到当前目录下。通过执行python main.py命令,即可生成每个来源的语料对应的*.tsv文件,存放于新生成的clean_chat_corpus文件夹下。用户可根据自身需求自主使用这些处理后的数据。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集,是对当前市场上开源中文聊天语料的搜集与整理。该数据集涵盖了多个来源的语料,包括chatterbot、豆瓣多轮、PTT八卦语料等,旨在为研究者和开发者提供便捷的语料资源,以促进中文聊天机器人技术的发展。该数据集的创建,体现了对中文自然语言处理领域需求的深刻理解,为相关研究提供了丰富的数据支撑。自发布以来,该数据集在学术界和工业界产生了广泛的影响,推动了中文聊天机器人技术的进步。
当前挑战
尽管chaotbot_corpus_Chinese数据集为中文聊天机器人研究提供了有力的支持,但在使用过程中也面临一些挑战。首先,数据集的多样性和质量参差不齐,对研究结果的准确性和可靠性可能产生影响。其次,数据集在构建过程中,由于语料来源的广泛性,存在噪音和重复数据,需要进一步清洗和去重。此外,部分语料含有敏感和不雅对话,对研究伦理和数据处理提出了更高要求。
常用场景
经典使用场景
chaotbot_corpus_Chinese作为中文聊天语料库的集大成者,其经典使用场景主要集中于自然语言处理领域,尤其是在构建和训练聊天机器人、对话系统时,提供了丰富多样的对话样本,助力于模型理解和生成自然语言的能力。
实际应用
在实际应用中,chaotbot_corpus_Chinese可被用于提升聊天机器人的对话质量,增强用户体验,同时,也为广告投放、市场分析、舆情监控等领域提供了强有力的数据支持。
衍生相关工作
基于该数据集,研究者们衍生出了众多相关的工作,如情感分析模型的构建、对话生成策略的优化、多轮对话系统的设计等,推动了中文自然语言处理领域的研究进展和技术突破。
以上内容由遇见数据集搜集并总结生成



