chinese_chatbot_corpus
收藏github2019-09-10 更新2024-05-31 收录
下载链接:
https://github.com/Charles3000/chinese_chatbot_corpus
下载链接
链接失效反馈官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些语料进行了统一化规整和处理,以便直接使用。
This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These corpora have been uniformly standardized and processed for direct use.
创建时间:
2019-09-10
原始信息汇总
数据集概述
数据集内容
该数据集搜集并整理了以下8个公开的中文聊天语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
所有语料经过统一化规整和处理,包括繁体字转换和对话轮次的统一,以便直接使用。
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,多轮 | 是 |
| ptt | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,生活化,有噪音 | 否 |
| qingyun | 10W | 某聊天机器人交流群 | 生活化,相对不错 | 否 |
| subtitle | 274W | 开源项目,电影和美剧字幕 | 多轮,有噪音 | 否 |
| tieba | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| 443W | 来自华为的paper | 有噪音 | 否 | |
| xiaohuangji | 45W | 原人人网项目语料 | 有不雅对话,少量噪音 | 否 |
数据使用
用户可以通过下载链接获取所有语料,并使用提供的Python脚本进行处理。处理后的数据以tsv格式存储,每行包含一个query和对应的answer。
版权说明
本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对市面上开源中文聊天语料的搜集与整理,涵盖了不同来源的语料,如聊天机器人项目、社交媒体平台、论坛等,经过格式统一化处理和繁体字转换,形成了可直接使用的对话数据集。
特点
数据集汇集了多种类型的中文对话资源,包括闲聊、短信、多轮对话等,语料来源丰富,形式多样,具有不同的特点和用途,如豆瓣语料噪声低、多轮对话丰富,PTT语料生活化但存在噪声等。所有语料经过整理,易于后续研究与应用。
使用方法
用户可以通过提供的链接一次性下载所有语料,并在本地解压后通过执行主程序脚本进行数据的加载和处理。处理后的数据以TSV格式存储,便于直接应用于聊天机器人开发、语言模型训练等研究领域。
背景与挑战
背景概述
chinese_chatbot_corpus数据集的构建,是在人工智能领域对中文聊天机器人研发需求日益增长的背景下应运而生。该数据集由多个开源项目和研究中搜集整理而来,涵盖了豆瓣、PTT论坛、贴吧、微博等多种社交平台上的对话记录,共计数百万条数据。创建于近年来,由多个研究人员和机构共同维护,旨在为中文聊天机器人的训练与评估提供高质量、多样化的语料资源,对推动中文自然语言处理领域的研究具有重要意义。
当前挑战
尽管chinese_chatbot_corpus数据集为中文聊天机器人的研究提供了丰富的语料支持,但在实际应用中仍面临诸多挑战。首先,数据集中包含的噪音数据和未分词情况,为后续的数据预处理和模型训练带来不便。其次,数据集在覆盖不同社会文化和语言风格方面存在局限性,可能影响聊天机器人的泛化能力。此外,由于部分数据来源于网络社区,存在一些不雅对话和不恰当内容,需要进一步清洗和过滤。
常用场景
经典使用场景
chinese_chatbot_corpus数据集作为中文聊天机器人领域的重要资源库,其经典使用场景主要集中于自然语言处理中的对话系统训练与评估。该数据集整合了多种来源的中文对话语料,为研究者提供了一站式的数据获取和处理方案,从而能够有效支撑聊天机器人模型的构建与优化。
衍生相关工作
基于chinese_chatbot_corpus数据集,研究者们已衍生出一系列相关工作,如对话系统的情感分析、多轮对话的生成策略研究、对话质量评估等。这些工作不仅促进了聊天机器人技术的进步,也为自然语言处理领域带来了新的研究方向和应用案例,推动了整个领域的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,中文聊天机器人语料库的构建与应用研究正逐渐深入。chinese_chatbot_corpus数据集的整合与规整,为研究者提供了丰富的闲聊语料资源,有助于推动多轮对话系统、情感分析、文本生成等研究方向的发展。近期,该数据集在对话系统的个性化设置、敏感词处理机制、以及文本生成模型的优化等方面展现出重要研究价值,为构建更加智能、贴近用户真实交流场景的聊天机器人提供了数据支撑。
以上内容由遇见数据集搜集并总结生成



