chaotbot_corpus_Chinese
收藏github2021-04-06 更新2024-05-31 收录
下载链接:
https://github.com/fighting41love/chaotbot_corpus_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些语料进行了统一化规整和处理,以便直接使用。
This repository compiles eight publicly available conversational corpora, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A corpora. These corpora have been uniformly organized and processed for direct use.
创建时间:
2019-03-07
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包含以下8个公开闲聊常用语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
所有语料经过统一化规整和处理,包括繁体字转换和对话格式统一,以便直接使用。
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| douban(豆瓣多轮) | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
| ptt(PTT八卦语料) | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| qingyun(青云语料) | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| subtitle(电视剧对白语料) | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
| tieba(贴吧论坛回帖语料) | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| weibo(微博语料) | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| xiaohuangji(小黄鸡语料) | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
用户需下载语料并解压至指定目录,执行python main.py或python3 main.py命令进行处理。
生成结果
每个来源的语料生成独立的*.tsv文件,存放于clean_chat_corpus文件夹下,格式为query answer。
搜集汇总
数据集介绍

构建方式
chaotbot_corpus_Chinese数据集的构建基于对多个开源中文聊天语料的系统化搜集与整理。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的八种常见语料,涵盖了从社交媒体到电视剧对白的广泛领域。构建过程中,首先从各来源提取原始语料,随后进行繁体字转换,并统一格式化为轮次对话,确保数据的一致性和可用性。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从社交媒体到电视剧对白的多种语境,提供了丰富的对话样本。数据集中的语料经过统一处理,格式一致,便于直接使用。此外,数据集中的对话样本既有单轮也有多轮对话,能够满足不同研究需求。尽管部分语料存在噪音,但整体质量较高,适合用于训练和评估聊天机器人模型。
使用方法
使用chaotbot_corpus_Chinese数据集时,用户需首先从指定链接下载语料文件,并将解压后的文件夹放置于项目目录中。通过运行提供的Python脚本,数据集将自动处理并生成独立的TSV文件,每个文件对应一个语料来源。生成的TSV文件格式简洁,每行包含一个对话样本,便于进一步的数据分析和模型训练。用户可根据具体需求,灵活选择和使用不同来源的语料进行实验和研究。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集是一个专注于中文聊天语料的综合性资源库,由多位研究人员和开源社区共同贡献。该数据集创建于近年来,旨在为中文聊天机器人的开发提供丰富、多样的语料支持。数据集整合了来自多个公开来源的语料,包括豆瓣多轮对话、PTT八卦论坛、电视剧对白等,涵盖了广泛的生活场景和语言风格。通过统一的格式处理和规范化,该数据集为研究人员和开发者提供了一个便捷的起点,极大地推动了中文自然语言处理领域的研究与应用。
当前挑战
chaotbot_corpus_Chinese数据集在构建过程中面临多重挑战。首先,语料来源多样且格式不一,需进行复杂的格式转换和统一化处理,以确保数据的一致性和可用性。其次,部分语料存在噪音问题,如不规范的表达、不雅内容等,需通过人工或自动化手段进行清洗和过滤。此外,多轮对话语料的上下文关联性较强,如何有效提取和保留对话的连贯性也是一个技术难点。最后,数据集的版权问题需谨慎处理,确保所有语料的合法使用,避免潜在的侵权风险。这些挑战不仅考验了数据处理的技术能力,也对数据集的长期维护提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,chatbot_corpus_Chinese数据集被广泛应用于中文聊天机器人的训练和评估。该数据集整合了多个来源的中文对话语料,涵盖了从社交媒体到电视剧对白的多样化内容,为研究者提供了一个丰富的语言环境,用以训练模型理解和生成自然语言。
解决学术问题
该数据集解决了中文自然语言处理领域中的一大难题,即缺乏统一且多样化的训练语料。通过整合和标准化处理,研究者可以更有效地进行模型训练,提高聊天机器人的对话质量和自然度,从而推动中文自然语言处理技术的发展。
衍生相关工作
基于chatbot_corpus_Chinese数据集,研究者们开发了多种先进的对话系统模型,如基于深度学习的生成式对话模型和检索式对话模型。这些模型在多个公开评测中取得了优异的成绩,进一步推动了中文自然语言处理技术的创新和应用。
以上内容由遇见数据集搜集并总结生成



