five

chaotbot_corpus_Chinese

收藏
github2021-04-06 更新2024-05-31 收录
下载链接:
https://github.com/fighting41love/chaotbot_corpus_Chinese
下载链接
链接失效反馈
官方服务:
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料,并对这些语料进行了统一化规整和处理,以便直接使用。

This repository compiles eight publicly available conversational corpora, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiao Huangji corpus, along with SMS and Egret Era Q&A corpora. These corpora have been uniformly organized and processed for direct use.
创建时间:
2019-03-07
原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包含以下8个公开闲聊常用语料:

  • chatterbot
  • 豆瓣多轮
  • PTT八卦语料
  • 青云语料
  • 电视剧对白语料
  • 贴吧论坛回帖语料
  • 微博语料
  • 小黄鸡语料

数据处理

所有语料经过统一化规整和处理,包括繁体字转换和对话格式统一,以便直接使用。

数据来源及说明

语料名称 语料数量 语料来源说明 语料特点 是否已分词
chatterbot 560 开源项目 按类型分类,质量较高
douban(豆瓣多轮) 352W 来自北航和微软的paper, 开源项目 噪音相对较少,原本是多轮(平均7.6轮)
ptt(PTT八卦语料) 40W 开源项目,台湾PTT论坛八卦版 繁体,语料较生活化,有噪音
qingyun(青云语料) 10W 某聊天机器人交流群 相对不错,生活化
subtitle(电视剧对白语料) 274W 开源项目,来自爬取的电影和美剧的字幕 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮)
tieba(贴吧论坛回帖语料) 232W 偶然找到的 多轮,有噪音
weibo(微博语料) 443W 来自华为的paper 仍有一些噪音
xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音

使用方法

用户需下载语料并解压至指定目录,执行python main.pypython3 main.py命令进行处理。

生成结果

每个来源的语料生成独立的*.tsv文件,存放于clean_chat_corpus文件夹下,格式为query answer

搜集汇总
数据集介绍
main_image_url
构建方式
chaotbot_corpus_Chinese数据集的构建基于对多个开源中文聊天语料的系统化搜集与整理。该数据集整合了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的八种常见语料,涵盖了从社交媒体到电视剧对白的广泛领域。构建过程中,首先从各来源提取原始语料,随后进行繁体字转换,并统一格式化为轮次对话,确保数据的一致性和可用性。
特点
该数据集的特点在于其多样性和广泛性,涵盖了从社交媒体到电视剧对白的多种语境,提供了丰富的对话样本。数据集中的语料经过统一处理,格式一致,便于直接使用。此外,数据集中的对话样本既有单轮也有多轮对话,能够满足不同研究需求。尽管部分语料存在噪音,但整体质量较高,适合用于训练和评估聊天机器人模型。
使用方法
使用chaotbot_corpus_Chinese数据集时,用户需首先从指定链接下载语料文件,并将解压后的文件夹放置于项目目录中。通过运行提供的Python脚本,数据集将自动处理并生成独立的TSV文件,每个文件对应一个语料来源。生成的TSV文件格式简洁,每行包含一个对话样本,便于进一步的数据分析和模型训练。用户可根据具体需求,灵活选择和使用不同来源的语料进行实验和研究。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集是一个专注于中文聊天语料的综合性资源库,由多位研究人员和开源社区共同贡献。该数据集创建于近年来,旨在为中文聊天机器人的开发提供丰富、多样的语料支持。数据集整合了来自多个公开来源的语料,包括豆瓣多轮对话、PTT八卦论坛、电视剧对白等,涵盖了广泛的生活场景和语言风格。通过统一的格式处理和规范化,该数据集为研究人员和开发者提供了一个便捷的起点,极大地推动了中文自然语言处理领域的研究与应用。
当前挑战
chaotbot_corpus_Chinese数据集在构建过程中面临多重挑战。首先,语料来源多样且格式不一,需进行复杂的格式转换和统一化处理,以确保数据的一致性和可用性。其次,部分语料存在噪音问题,如不规范的表达、不雅内容等,需通过人工或自动化手段进行清洗和过滤。此外,多轮对话语料的上下文关联性较强,如何有效提取和保留对话的连贯性也是一个技术难点。最后,数据集的版权问题需谨慎处理,确保所有语料的合法使用,避免潜在的侵权风险。这些挑战不仅考验了数据处理的技术能力,也对数据集的长期维护提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,chatbot_corpus_Chinese数据集被广泛应用于中文聊天机器人的训练和评估。该数据集整合了多个来源的中文对话语料,涵盖了从社交媒体到电视剧对白的多样化内容,为研究者提供了一个丰富的语言环境,用以训练模型理解和生成自然语言。
解决学术问题
该数据集解决了中文自然语言处理领域中的一大难题,即缺乏统一且多样化的训练语料。通过整合和标准化处理,研究者可以更有效地进行模型训练,提高聊天机器人的对话质量和自然度,从而推动中文自然语言处理技术的发展。
衍生相关工作
基于chatbot_corpus_Chinese数据集,研究者们开发了多种先进的对话系统模型,如基于深度学习的生成式对话模型和检索式对话模型。这些模型在多个公开评测中取得了优异的成绩,进一步推动了中文自然语言处理技术的创新和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作