chaotbot_corpus_Chinese
收藏github2021-08-28 更新2024-05-31 收录
下载链接:
https://github.com/jiniaoxu/chaotbot_corpus_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料。并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。
This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. The data from these eight common corpora has been uniformly standardized and processed, making it readily usable for preliminary applications.
创建时间:
2018-11-08
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上的开源中文聊天语料进行搜集和系统化整理的结果,包含以下8个语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
所有语料经过统一化规整和处理,包括繁体字转换和对话轮次的统一,以便直接使用。
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
| ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
用户需下载语料,解压后将raw_chat_corpus文件夹放置于当前目录下,执行python main.py或python3 main.py命令进行处理。
生成结果
处理后的数据以tsv格式存储在clean_chat_corpus文件夹下,每行包含一个样本,格式为query answer。
搜集汇总
数据集介绍

构建方式
chaotbot_corpus_Chinese数据集的构建基于对多个开源中文聊天语料的系统化搜集与整理。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料在内的八种常见语料。每种语料均经过格式提取、繁体字转换及对话轮次统一化处理,确保数据的一致性和可用性。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从社交媒体、论坛到电视剧对白等多种来源的语料,总计超过千万条对话。这些语料不仅数量庞大,而且质量较高,部分语料已经进行了分词处理,便于直接用于模型训练。此外,数据集中的对话形式多样,既有单轮对话,也有多轮对话,能够满足不同研究需求。
使用方法
使用chaotbot_corpus_Chinese数据集时,用户需首先从指定链接下载语料包,并将解压后的文件夹放置于项目目录下。通过执行提供的Python脚本,可以自动处理并生成独立的TSV格式文件,每个文件对应一种语料类型。生成的TSV文件可直接用于模型训练或其他自然语言处理任务。此外,用户可根据自身需求对数据进行进一步处理或分析。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集是一个专注于中文聊天语料的综合性资源,由多个开源项目整合而成,涵盖了包括豆瓣多轮对话、PTT八卦、电视剧对白等多种类型的语料。该数据集的创建旨在为中文聊天机器人的开发和研究提供一个统一、易于使用的语料库。数据集的主要贡献者包括来自北航、微软等机构的科研人员,以及多个开源社区的开发者。自发布以来,该数据集在自然语言处理和聊天机器人领域产生了广泛的影响,为相关研究提供了宝贵的数据支持。
当前挑战
chaotbot_corpus_Chinese数据集在构建和使用过程中面临多重挑战。首先,数据来源的多样性和格式的不统一增加了数据整合的复杂性,需要开发专门的工具和流程来统一处理。其次,语料的质量参差不齐,部分语料存在噪音和不规范的语言使用,这对模型的训练效果构成了挑战。此外,数据集的版权和伦理问题也需要谨慎处理,确保所有语料的使用都符合相关法律法规。这些挑战要求研究者在数据预处理、模型训练和结果评估等环节投入更多的精力和资源,以确保研究结果的准确性和可靠性。
常用场景
经典使用场景
在自然语言处理领域,chatbot_corpus_Chinese数据集被广泛应用于中文聊天机器人的训练与评估。该数据集整合了多个来源的中文对话语料,包括社交媒体、论坛、电视剧对白等,为研究者提供了一个丰富且多样化的语言环境。通过该数据集,研究人员可以训练出能够理解和生成自然语言对话的模型,从而提升聊天机器人的交互质量。
解决学术问题
chatbot_corpus_Chinese数据集解决了中文自然语言处理研究中语料分散、格式不统一的问题。通过整合和标准化处理,该数据集为研究者提供了一个统一的平台,便于进行对话系统的开发与测试。这不仅加速了相关研究的进展,还为中文聊天机器人的性能提升提供了坚实的基础。
衍生相关工作
基于chatbot_corpus_Chinese数据集,许多经典的自然语言处理工作得以展开。例如,研究者利用该数据集开发了多轮对话系统、情感分析模型以及基于深度学习的对话生成算法。这些工作不仅推动了中文自然语言处理技术的发展,还为后续研究提供了宝贵的经验和参考。
以上内容由遇见数据集搜集并总结生成



