chaotbot_corpus_Chinese

github2019-11-15 更新2024-05-31 收录

下载链接：

https://github.com/fateleak/chaotbot_corpus_Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信，白鹭时代问答等语料。并对8个常见语料的数据进行了统一化规整和处理，达到直接可以粗略使用的目的。

This repository compiles a collection of eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogues, forum replies from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and White Egret era Q&A data. The data from these eight common corpora have been uniformly standardized and processed to facilitate immediate and rough usage.

创建时间：

2018-11-04

原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理，包含以下8个公开闲聊常用语料：

chatterbot
豆瓣多轮
PTT八卦语料
青云语料
电视剧对白语料
贴吧论坛回帖语料
微博语料
小黄鸡语料

数据处理

数据处理过程包括：

按照原格式提取各个来源的语料
进行繁体字转换
统一变成一轮一轮的对话

数据来源及说明

语料名称	语料数量	语料来源说明	语料特点	是否已分词
chatterbot	560	开源项目	按类型分类，质量较高	否
douban（豆瓣多轮）	352W	来自北航和微软的paper, 开源项目	噪音相对较少，原本是多轮	是
ptt（PTT八卦语料）	40W	开源项目，台湾PTT论坛八卦版	繁体，语料较生活化，有噪音	否
qingyun（青云语料）	10W	某聊天机器人交流群	相对不错，生活化	否
subtitle（电视剧对白语料）	274W	开源项目，来自爬取的电影和美剧的字幕	有一些噪音，对白不一定是严谨的对话	否
tieba（贴吧论坛回帖语料）	232W	偶然找到的	多轮，有噪音	否
weibo（微博语料）	443W	来自华为的paper	仍有一些噪音	否
xiaohuangji（小黄鸡语料）	45W	原人人网项目语料	有一些不雅对话，少量噪音	否

使用方法

下载语料：通过提供的链接下载语料。
目录结构：将解压后的raw_chat_corpus文件夹放到当前目录下，执行python main.py或python3 main.py进行处理。

生成结果

每个来源的语料生成独立的.tsv文件，存放在clean_chat_corpus文件夹下。
结果格式：每行包含query answer。

版权说明

本项目为非商业项目，纯搜集和汇总资料，如有侵权，请在issue下留言。

搜集汇总

数据集介绍

构建方式

chaotbot_corpus_Chinese数据集的构建，是在对现有开源中文聊天语料进行搜集的基础上，进一步进行系统化整理与格式统一化处理的工作。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的多个来源语料，通过繁体字转换和对话格式化，使得各语料能够达到即时的粗略使用标准。

使用方法

使用该数据集时，用户可通过提供的下载链接一次性获取所有语料，并按照项目说明将解压后的文件夹放置到指定目录。通过执行main.py脚本，用户可以在本地生成经过处理的、格式为tsv的语料文件。生成的数据可以依据用户需求进行进一步的研究和应用，例如聊天机器人的训练和对话系统的开发。

背景与挑战

背景概述

chaotbot_corpus_Chinese数据集是一项对中文聊天语料进行搜集和系统化整理的工作，旨在为聊天机器人领域的研究者提供便捷的语料资源。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的多个开源中文聊天语料，其创建体现了对自然语言处理领域中对话系统训练的迫切需求。该项目始于对已有开源项目的整理，由多个研究者和机构共同维护，为中文对话系统的训练与优化提供了丰富的数据基础，对自然语言处理、机器学习等领域产生了积极的影响。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：1) 多源语料的整合与格式统一，不同来源的语料在格式、质量和语言风格上存在差异，需要标准化处理；2) 语料质量控制和清洗，需要去除不雅对话和噪音数据，保证数据集的可用性和准确性；3) 面对不断变化的网络语言，数据集的时效性和覆盖性也是一大挑战。此外，在所解决的领域问题方面，如何利用这些语料训练出能够适应多样化和个性化交流需求的聊天机器人，也是当前研究者和开发者需要克服的难点。

常用场景

经典使用场景

chaotbot_corpus_Chinese作为一个集成化的中文聊天语料库，其经典使用场景在于为聊天机器人提供训练和测试的基础数据。研究者可以借此库中的多样化对话样本，进行自然语言理解和生成的算法研发，以及对话系统的性能评估。

解决学术问题

该数据集解决了中文自然语言处理领域中的多个学术研究问题，包括但不限于对话系统的上下文理解、多轮对话管理、情感分析和敏感词过滤等。其丰富的语料来源和标注信息为研究提供了有力的数据支持，进而促进了相关技术的进步和学术成果的产出。

实际应用

在实际应用层面，chaotbot_corpus_Chinese数据集被广泛应用于社交媒体管理、客户服务自动化、在线教育咨询等多个领域。它为开发者提供了构建智能对话系统所需的真实语料，助力于提升系统的自然度和交互体验。

数据集最近研究