chaotbot_corpus_Chinese
收藏github2019-03-07 更新2024-05-31 收录
下载链接:
https://github.com/betaberry/chaotbot_corpus_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些语料进行了统一化规整和处理,以便直接使用。
This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiaohuangji corpus, along with SMS and Egret Era Q&A datasets. These corpora have been uniformly organized and processed for direct use.
创建时间:
2019-03-07
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包含以下8个公开闲聊常用语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
数据处理过程包括:
- 按照原格式提取各个来源的语料
- 进行繁体字转换
- 统一变成一轮一轮的对话
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| 豆瓣多轮 | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮 | 是 |
| PTT八卦语料 | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| 青云语料 | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| 电视剧对白语料 | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话 | 否 |
| 贴吧论坛回帖语料 | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| 微博语料 | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| 小黄鸡语料 | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
- 下载语料:https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex
- 将解压后的
raw_chat_corpus文件夹放到当前目录下 - 执行命令:
python main.py或python3 main.py
生成结果
- 每个来源的语料生成一个独立的
.tsv文件 - 文件放在
clean_chat_corpus文件夹下 - 格式为:
query answer
搜集汇总
数据集介绍

构建方式
该数据集的构建采用了对开源中文聊天语料的搜集与系统化整理的方法。具体而言,其整合了多个来源的语料,包括但不限于开源项目、论坛、社交媒体等,经过格式提取、繁体字转换以及对话格式化处理,形成了可直接粗略使用的统一结构化语料库。
使用方法
使用该数据集时,用户只需下载提供的压缩包,并解压至指定目录。随后,通过执行主程序脚本,即可生成处理后的语料文件。生成的文件为tsv格式,每行包含一个对话样本,便于后续的数据处理与分析。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集的构建,是在人工智能助手和自然语言处理领域蓬勃发展的大背景下,为了满足中文聊天机器人训练需求而进行的语料搜集与整理工作。该数据集由多个开源项目、研究机构及个人搜集整理,涵盖了豆瓣、PTT论坛、贴吧、微博等多个社交平台上的对话记录,总计超过千万条数据。其创建旨在为研究人员提供高质量的中文对话语料,以促进中文聊天机器人技术的发展。自发布以来,该数据集已成为中文自然语言处理领域重要的基础资源之一,对推动相关领域的研究与产业发展产生了深远影响。
当前挑战
该数据集在构建过程中面临的主要挑战包括:首先,不同来源的语料格式各异,需要进行统一化处理,确保语料的一致性和可用性;其次,语料中存在的噪声,如不雅对话、重复内容等,需要过滤和清理;最后,数据集的多样性和代表性也是重要挑战,需确保语料能够覆盖日常对话的多种场景和风格。此外,该数据集解决的领域问题是中文聊天机器人的对话生成和质量提升,面临的挑战包括如何从大量非结构化数据中提取有价值的信息,以及如何设计有效的对话系统来处理多轮、复杂的对话情景。
常用场景
经典使用场景
chaotbot_corpus_Chinese作为中文聊天语料库,其经典使用场景主要集中于自然语言处理领域,特别是在构建与训练聊天机器人模型时。该数据集整合了多种来源的中文对话数据,为研究者提供了丰富的、多样化的语境样本,有助于提升模型的语境理解、回应生成等能力。
解决学术问题
该数据集解决了中文自然语言处理中语料匮乏、质量参差不齐的问题。通过统一化规整和处理,使得研究者能够更加便捷地获取到高质量、多样化的中文对话数据,从而提高了学术研究的效率,并为构建更加智能、准确的聊天机器人提供了坚实的基础。
实际应用
在实际应用中,chaotbot_corpus_Chinese被广泛应用于聊天机器人、智能客服、情感分析等领域。它帮助开发者快速搭建能够适应不同场景、应对复杂语境的智能对话系统,提升了用户体验,增强了系统的实用性和互动性。
数据集最近研究
最新研究方向
在自然语言处理领域,尤其是中文聊天机器人研究领域,chaotbot_corpus_Chinese数据集的构建与整合为学者与开发者提供了宝贵的资源。该数据集的系统性整理与清洗,使得研究者能够更加便捷地获取多样化的中文对话语料,进而推动多轮对话系统、情感分析、对话生成等前沿研究方向的发展。此外,该数据集对于理解中文网络语境下的语言特点及构建符合本土文化的聊天机器人具有显著影响,为相关研究提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成



