chinese_chatbot_corpus

github2019-07-28 更新2024-05-31 收录

下载链接：

https://github.com/LIMINGDENG2/chinese_chatbot_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作，包含了多个公开闲聊常用语料和短信，白鹭时代问答等语料，并对这些语料进行了统一化规整和处理，以便直接使用。

This repository represents a comprehensive collection and systematic organization of existing open-source Chinese conversational corpora available on the market. It encompasses a variety of publicly accessible chat and SMS datasets, including the Egret Era Q&A corpus, among others. These corpora have been uniformly standardized and processed to facilitate immediate utilization.

创建时间：

2019-07-23

原始信息汇总

数据集概述

数据集内容

语料来源：包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料，共8个公开闲聊常用语料。
语料特点：各语料具有不同的特点，如语料数量、来源、噪音情况、是否分词等。
语料处理：所有语料经过统一化规整和处理，以适应直接使用的需求。

数据集结构

原始数据存储：所有语料已统一下载并存储于指定链接。
数据处理流程：提取原格式语料，进行繁体字转换，统一成对话形式。
生成结果：每个来源的语料生成独立的*.tsv文件，存放于clean_chat_corpus文件夹下。
结果格式：每行包含query和answer，格式为query answer。

使用方法

下载与安装：通过指定链接下载语料，解压后放置于当前目录的raw_chat_corpus文件夹。
执行命令：使用python main.py或python3 main.py命令进行处理。

版权说明

本项目为非商业项目，纯搜集和汇总资料，如有侵权，请在issue下留言。

搜集汇总

数据集介绍

构建方式

该数据集的构建是基于对市面上开源中文聊天语料的搜集与整合，涵盖了不同来源的多种语料，如聊天机器人、社交媒体、论坛等。通过提取原始数据，进行繁体字转换，并统一格式化为对话形式，形成了可以直接粗略使用的语料集。

使用方法

使用该数据集时，用户需先从提供的百度网盘链接中下载语料包，并将其放置在指定目录下。执行主程序脚本后，数据集将被处理并生成TSV格式的文件，每行包含一个查询和回答的对话样本。用户可根据自身需求对生成的数据集进行进一步的处理和应用。

背景与挑战

背景概述

chinese_chatbot_corpus数据集的构建，是在中文聊天机器人迅速发展的背景下，针对市面上已有的开源中文聊天语料的搜集和系统化整理工作。该数据集由多个开源项目及研究机构共同贡献，包括chatterbot、豆瓣多轮、PTT八卦语料等，共计8个公开闲聊常用语料和短信。这些语料的整合，旨在为研究人员和开发者提供便捷的数据资源，以促进中文聊天机器人的研究和开发。自创建以来，该数据集在中文自然语言处理领域产生了广泛影响，为相关研究提供了坚实的基础。

当前挑战

尽管chinese_chatbot_corpus数据集为中文聊天机器人的研究提供了便利，但在使用过程中也存在一些挑战。首先，数据集中的部分语料质量参差不齐，存在一定的噪音，这可能会对模型的训练效果产生影响。其次，数据集的构建过程中，面临着繁体字转换、多轮对话处理等技术的挑战。此外，由于数据集包含的生活化、口语化语料较多，对于模型的语境理解能力和回应的准确性提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，尤其是中文聊天机器人开发中，该数据集提供了一个全面的中文聊天语料库。其经典使用场景在于训练聊天机器人的语言理解和生成能力，从而实现更自然、流畅的人机对话。

解决学术问题

该数据集解决了中文聊天语料分散、质量参差不齐的问题，为学术研究者提供了一个整合了多种来源和类型的高质量语料库，有助于提升研究效率和模型训练效果。

实际应用

在实践应用中，该数据集被广泛用于中文聊天机器人的开发与优化，提高了聊天机器人的对话质量和用户体验，为智能客服、虚拟助手等场景提供了有效的数据支撑。

数据集最近研究