chaotbot_corpus_Chinese
收藏github2018-11-05 更新2024-05-31 收录
下载链接:
https://github.com/No-bb-just-do-it/chaotbot_corpus_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作,包括chatterbot、豆瓣多轮、PTT八卦语料等8个公开闲聊常用语料,并对这些语料进行了统一化规整和处理,以便直接使用。
This repository represents a comprehensive collection and systematic organization of existing open-source Chinese conversational corpora available on the market. It encompasses eight publicly accessible datasets commonly used for casual dialogue, including chatterbot, Douban multi-turn dialogues, and PTT gossip corpus, among others. These corpora have been uniformly standardized and processed to facilitate direct utilization.
创建时间:
2018-11-05
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包括以下8个公开闲聊常用语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
数据处理过程包括:
- 按照原格式提取各个来源的语料
- 进行繁体字转换
- 统一变成一轮一轮的对话
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
| ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
- 下载语料并解压到当前目录下的
raw_chat_corpus文件夹 - 执行命令
python main.py或python3 main.py
生成结果
- 每个来源的语料生成独立的
.tsv文件,存放于clean_chat_corpus文件夹下 - 结果格式为
tsv,每行包含query answer
搜集汇总
数据集介绍

构建方式
chaotbot_corpus_Chinese数据集的构建采取了集成市面上开源中文聊天语料的方式,涵盖了不同来源的闲聊常用语料和短信,包括豆瓣多轮、PTT八卦语料、青云语料等,共计八种。该数据集构建者对各个来源的语料进行了原格式提取,转换成繁体字,并统一整理为一轮一轮的对话形式,以适应聊天机器人训练的需要。
特点
该数据集的特点在于其多样化的数据来源和统一化的数据格式,便于研究者一次性处理和下载。它包含了大量的中文对话数据,涵盖生活化、娱乐化等多个维度,有助于提升聊天机器人对中文语境的理解和响应能力。此外,数据集还注重语料的原始性和真实性,保留了语言的自然属性,尽管存在一定噪音,但整体质量较高。
使用方法
使用该数据集时,用户需先下载语料,解压后放置于指定目录。通过执行main.py脚本,数据集将自动处理并生成tsv格式的文件,每行包含一个query和answer的样本对。用户可以根据实际需求,将这些数据进行进一步的处理和应用,例如用于聊天机器人的训练、语言模型的评估等。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集的构建,旨在响应中文自然语言处理领域中聊天机器人研发的需求。该数据集由多个开源项目及研究机构提供的基础语料库整合而成,创建于近期,其核心研究人员或机构不详。该数据集的创建,不仅丰富了中文聊天机器人的训练资源,也为研究者在对话系统、自然语言理解等领域提供了有力的研究工具,进而推动了中文自然语言处理技术的进步。
当前挑战
在数据集构建过程中,研究者面临了多个挑战。首先,不同来源的语料格式各异,需要进行统一的规整和处理。其次,语料中存在的噪音、不雅对话以及繁体字等问题,需要额外的清洗和转换工作。此外,数据集的多样性和覆盖性也是构建过程中的挑战之一,需要确保数据能够全面地反映中文聊天的多样性。在解决领域问题上,如何利用该数据集训练出既能理解复杂语境又能生成恰当回应的聊天机器人,是当前研究的一大挑战。
常用场景
经典使用场景
chaotbot_corpus_Chinese数据集的典型应用场景在于为聊天机器人提供训练和测试的基础语料库。该数据集整合了多种来源的中文聊天语料,覆盖日常对话、论坛讨论、社交媒体互动等多种交流形式,便于研究者针对不同类型的对话系统进行深入分析和优化。
解决学术问题
该数据集解决了中文自然语言处理领域中的多个学术研究问题,包括但不限于对话系统的多轮对话处理、情感分析、语言模型训练等。其多样化的语料来源有助于提高模型对不同语境的理解能力,增强了模型在复杂对话场景中的适应性,为相关学术研究提供了可靠的数据基础。
衍生相关工作
基于chaotbot_corpus_Chinese数据集,研究者们开展了一系列相关工作,包括构建更加高效的对话模型、分析社交网络中的语言特性、以及探讨人工智能在情感交流中的角色等。这些工作推动了中文自然语言处理技术的进步,也为智能对话系统的普及和发展提供了理论支持和实践指导。
以上内容由遇见数据集搜集并总结生成



