five

chinese_chatbot_corpus

收藏
github2022-04-03 更新2024-05-31 收录
下载链接:
https://github.com/bojone/chinese_chatbot_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该库搜集了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些语料进行了统一化规整和处理,方便用户直接使用。

This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These datasets have been uniformly standardized and processed to facilitate direct usage by users.
创建时间:
2019-12-10
原始信息汇总

数据集概述

数据集来源

  • chatterbot
  • 豆瓣多轮
  • PTT八卦语料
  • 青云语料
  • 电视剧对白语料
  • 贴吧论坛回帖语料
  • 微博语料
  • 小黄鸡语料

数据集特点

  • chatterbot: 560条,按类型分类,质量较高,未分词。
  • 豆瓣多轮: 352万条,噪音较少,多轮对话,已分词。
  • PTT八卦语料: 40万条,繁体,生活化,有噪音,未分词。
  • 青云语料: 10万条,生活化,未分词。
  • 电视剧对白语料: 274万条,有噪音,多轮对话,未分词。
  • 贴吧论坛回帖语料: 232万条,多轮,有噪音,未分词。
  • 微博语料: 443万条,有噪音,未分词。
  • 小黄鸡语料: 45万条,有不雅对话,少量噪音,未分词。

数据处理

  • 将各个来源的语料按照其原格式进行提取。
  • 进行繁体字转换。
  • 统一变成一轮一轮的对话。

数据集使用

  • 下载地址:https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A,提取码:f2ex。
  • 解压后将raw_chat_corpus文件夹放到当前目录下。
  • 执行命令:python main.pypython3 main.py

生成结果

  • 每个来源的语料生成独立的*.tsv文件。
  • 存放于clean_chat_corpus文件夹下。
  • 格式:query answer
搜集汇总
数据集介绍
main_image_url
构建方式
chinese_chatbot_corpus数据集的构建基于对多个开源中文聊天语料的系统化搜集与整理。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料及小黄鸡语料在内的八种常见语料。每种语料均经过提取、繁体字转换及对话轮次统一化处理,确保数据格式的一致性,便于直接使用。
使用方法
使用chinese_chatbot_corpus数据集时,用户需首先从指定链接下载语料包,并将其解压至项目目录中。随后,通过执行main.py脚本,系统将自动处理并生成独立的*.tsv文件,每个文件对应一种语料类型。生成的TSV文件格式简洁,每行包含一个对话样本,由query和answer两部分组成,便于直接用于模型训练或分析。此外,用户可根据具体需求,灵活调整数据处理流程,以适应不同的研究或应用场景。
背景与挑战
背景概述
随着人工智能技术的迅猛发展,中文聊天机器人逐渐成为研究热点。chinese_chatbot_corpus数据集由多位研究人员和机构共同创建,旨在为中文聊天机器人的开发提供高质量的语料支持。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的多种公开闲聊语料,涵盖了从社交媒体到电视剧对白的广泛内容。通过对这些语料的统一化处理,数据集为研究者提供了一个便捷的资源库,极大地推动了中文自然语言处理领域的发展。
当前挑战
chinese_chatbot_corpus数据集在构建过程中面临多重挑战。首先,语料来源的多样性导致数据格式和质量的差异较大,需要进行复杂的预处理工作以确保数据的一致性和可用性。其次,部分语料存在噪音和不规范表达,增加了数据清洗的难度。此外,繁体字与简体字的转换、多轮对话的拆分等问题也对数据集的构建提出了技术上的挑战。这些挑战不仅考验了数据处理的技术能力,也对后续的模型训练和应用提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,chinese_chatbot_corpus数据集被广泛应用于中文聊天机器人的训练和评估。该数据集整合了多个来源的中文对话语料,包括社交媒体、论坛、电视剧对白等,为研究人员提供了一个丰富且多样化的语言环境。通过使用这些语料,研究者可以训练出更加自然、流畅的对话系统,提升机器人的对话质量和用户体验。
解决学术问题
chinese_chatbot_corpus数据集解决了中文自然语言处理领域中的多个关键问题,尤其是在对话系统的构建和优化方面。通过整合和统一处理多种来源的语料,该数据集为研究者提供了一个标准化的基准,便于进行模型训练和性能评估。此外,该数据集的多轮对话特性有助于研究多轮对话管理、上下文理解等复杂问题,推动了对话系统技术的进步。
实际应用
在实际应用中,chinese_chatbot_corpus数据集为开发智能客服、虚拟助手等产品提供了强有力的支持。通过使用该数据集,企业可以训练出能够理解用户意图、生成自然回应的聊天机器人,从而提升客户服务的效率和质量。此外,该数据集还可用于社交媒体监控、情感分析等场景,帮助企业更好地理解用户需求和市场趋势。
数据集最近研究
最新研究方向
在自然语言处理领域,中文聊天机器人语料库的研究正逐渐成为热点。chinese_chatbot_corpus数据集整合了多个来源的中文对话数据,包括豆瓣、微博、电视剧对白等,为研究者提供了一个丰富的多轮对话研究平台。当前,该数据集被广泛应用于对话系统的开发,特别是在多轮对话理解和生成模型的训练中。研究者们利用这些数据探索如何提高对话系统的上下文理解能力和生成质量,以及如何处理对话中的噪音和不规范表达。此外,随着深度学习技术的发展,该数据集也在推动基于Transformer的模型在中文对话系统中的应用,为中文自然语言处理技术的发展提供了重要支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作