five

chaotbot_corpus_Chinese

收藏
github2019-07-06 更新2024-05-31 收录
下载链接:
https://github.com/MarkWh1te/chaotbot_corpus_Chinese
下载链接
链接失效反馈
官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些数据进行了统一化规整和处理,以便直接使用。

This repository compiles eight publicly available conversational datasets, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A datasets. These datasets have been uniformly organized and processed for direct use.
创建时间:
2019-03-14
原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包含以下8个公开闲聊常用语料:

  • chatterbot
  • 豆瓣多轮
  • PTT八卦语料
  • 青云语料
  • 电视剧对白语料
  • 贴吧论坛回帖语料
  • 微博语料
  • 小黄鸡语料

数据处理

所有语料经过统一化规整和处理,包括繁体字转换和对话格式统一,以便直接使用。

数据来源及说明

语料名称 语料数量 语料来源说明 语料特点 是否已分词
chatterbot 560 开源项目 按类型分类,质量较高
douban(豆瓣多轮) 352W 来自北航和微软的paper, 开源项目 噪音相对较少,原本是多轮(平均7.6轮)
ptt(PTT八卦语料) 40W 开源项目,台湾PTT论坛八卦版 繁体,语料较生活化,有噪音
qingyun(青云语料) 10W 某聊天机器人交流群 相对不错,生活化
subtitle(电视剧对白语料) 274W 开源项目,来自爬取的电影和美剧的字幕 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮)
tieba(贴吧论坛回帖语料) 232W 偶然找到的 多轮,有噪音
weibo(微博语料) 443W 来自华为的paper 仍有一些噪音
xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音

使用方法

用户可以通过下载链接获取所有语料,解压后放置在指定目录下,并通过执行python main.pypython3 main.py命令进行处理。

生成结果

处理后的数据以tsv格式存储在clean_chat_corpus文件夹下,每行包含一个样本,格式为query answer

搜集汇总
数据集介绍
main_image_url
构建方式
chaotbot_corpus_Chinese数据集的构建,是通过搜集整合市面上已有的开源中文聊天语料,包含chatterbot、豆瓣多轮等八个常用语料和短信,白鹭时代问答等语料。对这八个常见语料的数据进行统一化规整和处理,使其达到可以直接粗略使用的目的。
特点
该数据集的显著特点在于其整合了多种来源的中文聊天语料,既包括了质量较高的chatterbot语料,也涵盖了生活化的ptt、青云等语料,丰富了数据集的多样性。此外,该数据集经过统一化规整和处理,用户无需自行搜集和格式转换,方便快捷。
使用方法
使用该数据集首先需要下载语料,解压后将raw_chat_corpus文件夹放到当前目录下。通过执行python main.py命令,即可生成每个来源的语料对应的*.tsv文件,存放于新生成的clean_chat_corpus文件夹下。用户可根据自身需求自主使用这些处理后的数据。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集,是对当前市场上开源中文聊天语料的搜集与整理。该数据集涵盖了多个来源的语料,包括chatterbot、豆瓣多轮、PTT八卦语料等,旨在为研究者和开发者提供便捷的语料资源,以促进中文聊天机器人技术的发展。该数据集的创建,体现了对中文自然语言处理领域需求的深刻理解,为相关研究提供了丰富的数据支撑。自发布以来,该数据集在学术界和工业界产生了广泛的影响,推动了中文聊天机器人技术的进步。
当前挑战
尽管chaotbot_corpus_Chinese数据集为中文聊天机器人研究提供了有力的支持,但在使用过程中也面临一些挑战。首先,数据集的多样性和质量参差不齐,对研究结果的准确性和可靠性可能产生影响。其次,数据集在构建过程中,由于语料来源的广泛性,存在噪音和重复数据,需要进一步清洗和去重。此外,部分语料含有敏感和不雅对话,对研究伦理和数据处理提出了更高要求。
常用场景
经典使用场景
chaotbot_corpus_Chinese作为中文聊天语料库的集大成者,其经典使用场景主要集中于自然语言处理领域,尤其是在构建和训练聊天机器人、对话系统时,提供了丰富多样的对话样本,助力于模型理解和生成自然语言的能力。
实际应用
在实际应用中,chaotbot_corpus_Chinese可被用于提升聊天机器人的对话质量,增强用户体验,同时,也为广告投放、市场分析、舆情监控等领域提供了强有力的数据支持。
衍生相关工作
基于该数据集,研究者们衍生出了众多相关的工作,如情感分析模型的构建、对话生成策略的优化、多轮对话系统的设计等,推动了中文自然语言处理领域的研究进展和技术突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作