chaotbot_corpus_Chinese
收藏github2019-11-15 更新2024-05-31 收录
下载链接:
https://github.com/fatecbf/chaotbot_corpus_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作,包含8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些语料进行了统一化规整和处理,以便直接使用。
This repository represents a comprehensive collection and systematic organization of open-source Chinese conversational corpora currently available on the market. It includes eight publicly accessible corpora commonly used for casual chatting and text messaging, such as the Egret Era Q&A corpus. These corpora have been uniformly standardized and processed to facilitate direct utilization.
创建时间:
2018-11-04
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包含以下8个公开闲聊常用语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
数据处理过程包括:
- 按照原格式提取各个来源的语料
- 进行繁体字转换
- 统一变成一轮一轮的对话
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
| ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
数据使用方法
- 下载语料并解压到指定目录
- 执行命令
python main.py或python3 main.py
生成结果
- 每个来源的语料生成独立的
.tsv文件 - 文件存放在
clean_chat_corpus文件夹下 - 格式为:
query answer
搜集汇总
数据集介绍

构建方式
chaotbot_corpus_Chinese数据集的构建,是通过搜集并整理现有的开源中文聊天语料,包括chatterbot、豆瓣多轮等八种类别。这些语料经过提取、繁体字转换以及对话格式统一化处理,形成了可以直接粗略使用的聊天语料库。
特点
该数据集的特点在于其系统化整理了多种开源中文聊天语料,不仅提供了丰富的数据来源,而且经过统一化规整,减少了数据处理的复杂性。此外,各类语料具有不同的特点和来源,例如豆瓣多轮语料噪音相对较少,而PTT八卦语料则以繁体和生活化内容为主。
使用方法
使用该数据集时,用户可以从提供的链接下载语料,解压后将其放置在指定目录。通过执行main.py脚本,即可处理语料并生成tsv格式的结果文件,每行包含一个query与answer的对话样本。用户可根据自身需求自主使用这些处理后的数据。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集,作为自然语言处理领域的重要资源,汇集了多种开源中文聊天语料。其创建旨在为研究者和开发者提供便捷的聊天机器人训练语料。该数据集整理了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的多个语料来源,总计涵盖了数百万条对话数据。自整理以来,该数据集为中文聊天机器人的研究与实践提供了有力的支撑,对促进该领域的技术进步与创新发展具有显著影响。
当前挑战
尽管chaotbot_corpus_Chinese数据集为研究提供了便利,但在使用过程中仍面临诸多挑战。首先,数据集包含的语料质量参差不齐,存在噪音,需要进行清洗和预处理。其次,数据集的多样性和代表性有待提高,以适应更广泛的对话场景。此外,数据集在构建过程中遇到的挑战包括语料的版权问题、隐私保护以及繁体字转换等技术的应用。这些挑战对研究者和开发者的数据处理能力提出了更高的要求。
常用场景
经典使用场景
chaotbot_corpus_Chinese作为全面整合了多种中文聊天语料的资源库,其经典的使用场景主要集中于自然语言处理领域中的对话系统训练与优化。研究者与开发者可以借助该数据集,针对不同来源和特点的语料进行深入的分析和模型训练,以提升聊天机器人的语境理解能力、回应的准确性和丰富度。
实际应用
在实际应用中,chaotbot_corpus_Chinese数据集被广泛用于开发智能客服、聊天机器人以及语音助手等交互式应用程序。它帮助企业和组织构建更加自然、准确的用户交互体验,从而提高服务效率与用户满意度。
衍生相关工作
基于chaotbot_corpus_Chinese数据集,已经衍生出了一系列相关的研究工作,包括但不限于对话系统的评价标准制定、情感识别算法改进、对话生成模型创新等。这些工作进一步扩展了数据集的应用范围,并推动了相关领域的学术讨论和技术进步。
以上内容由遇见数据集搜集并总结生成



