five

中文聊天语料库|自然语言处理数据集|对话系统数据集

收藏
github2020-10-14 更新2024-05-31 收录
自然语言处理
对话系统
下载链接:
https://github.com/xurenlu/chinese_chatbot_corpus
下载链接
链接失效反馈
资源简介:
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料。并对这些语料进行了统一化规整和处理,以便直接使用。

本库汇聚了涵盖chatterbot、豆瓣多轮对话、PTT八卦、青云问答、电视剧台词、贴吧论坛回复、微博互动、小黄鸡闲聊等八种公开常用闲聊语料及短信数据,以及白鹭时代问答等资源。对这些数据进行了标准化整理与加工,以确保其可直接应用于各类应用场景。
创建时间:
2019-06-27
原始信息汇总

数据集概述

数据集内容

该数据集是对市面上已有的开源中文聊天语料进行的搜集和系统化整理,包括以下8个语料:

  • chatterbot
  • 豆瓣多轮
  • PTT八卦语料
  • 青云语料
  • 电视剧对白语料
  • 贴吧论坛回帖语料
  • 微博语料
  • 小黄鸡语料

数据处理

数据处理过程包括:

  • 按照原格式提取各个来源的语料
  • 进行繁体字转换
  • 统一变成一轮一轮的对话

数据来源及说明

语料名称 语料数量 语料来源说明 语料特点 是否已分词
chatterbot 560 开源项目 按类型分类,质量较高
豆瓣多轮 352W 来自北航和微软的paper, 开源项目 噪音相对较少,原本是多轮(平均7.6轮)
PTT八卦语料 40W 开源项目,台湾PTT论坛八卦版 繁体,语料较生活化,有噪音
青云语料 10W 某聊天机器人交流群 相对不错,生活化
电视剧对白语料 274W 开源项目,来自爬取的电影和美剧的字幕 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮)
贴吧论坛回帖语料 232W 偶然找到的 多轮,有噪音
微博语料 443W 来自华为的paper 仍有一些噪音
小黄鸡语料 45W 原人人网项目语料 有一些不雅对话,少量噪音

使用方法

  • 下载语料:https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex
  • 将解压后的raw_chat_corpus文件夹放到当前目录下
  • 执行命令:python main.pypython3 main.py

生成结果

  • 每个来源的语料生成一个独立的.tsv文件
  • 结果放在clean_chat_corpus文件夹下
  • 格式为:query answer
AI搜集汇总
数据集介绍
main_image_url
构建方式
中文聊天语料库的构建基于对市面上多种开源中文聊天语料的系统化搜集与整理。该数据集整合了来自不同来源的语料,包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料,共计八种。每种语料在提取后经过繁体字转换,并统一处理为一轮一轮的对话格式,确保数据的一致性和可用性。
使用方法
使用中文聊天语料库时,用户首先需从指定链接下载预处理好的语料文件,并将其解压至项目目录。随后,通过执行main.py脚本,系统将自动生成每个来源语料的独立tsv文件,存储在clean_chat_corpus文件夹中。每行数据以query和answer的形式呈现,便于直接导入和分析。
背景与挑战
背景概述
中文聊天语料库是由一群致力于自然语言处理研究的学者和开发者共同创建的,旨在为中文聊天机器人和对话系统提供高质量的训练数据。该数据集的创建时间可追溯至近年来,随着人工智能技术的迅猛发展,对话系统的需求日益增长。主要研究人员和机构包括北航、微软等,他们通过整合和处理多个开源项目和公开语料,形成了这一综合性的聊天语料库。核心研究问题是如何有效地收集、整理和标准化多来源的中文对话数据,以提升聊天机器人的性能和用户体验。该数据集对相关领域的影响力在于,它为研究人员和开发者提供了一个统一、便捷的数据资源,极大地促进了中文自然语言处理技术的发展。
当前挑战
中文聊天语料库在构建过程中面临多项挑战。首先,不同来源的语料在格式、内容和质量上存在显著差异,需要进行繁琐的统一化处理和标准化。其次,语料中包含大量噪音,如不规范的对话、不雅内容等,这些都需要通过精细的过滤和清洗来解决。此外,语料的多样性虽然丰富了数据集,但也增加了处理的复杂性,特别是在多轮对话的结构化和分析上。最后,如何确保语料的版权和合法性,避免侵权问题,也是该数据集构建过程中必须面对的挑战。
常用场景
经典使用场景
中文聊天语料库的经典使用场景主要集中在自然语言处理(NLP)领域,特别是对话系统与聊天机器人的开发。该数据集通过整合多种来源的对话数据,为研究人员和开发者提供了一个统一的、高质量的语料库,用于训练和评估对话模型。其多轮对话的特性使得它特别适用于开发能够进行复杂交互的聊天机器人,从而提升用户体验。
解决学术问题
该数据集解决了在NLP领域中,特别是对话系统研究中,缺乏统一、高质量的中文对话语料的问题。通过提供多样化的对话样本,它有助于研究人员开发和验证新的对话模型,提升模型的泛化能力和鲁棒性。此外,该数据集的多轮对话特性为研究多轮对话管理、上下文理解和生成提供了宝贵的资源,推动了相关领域的发展。
实际应用
在实际应用中,中文聊天语料库被广泛用于开发智能客服、虚拟助手和社交机器人等应用。通过使用该数据集训练的模型,这些应用能够更自然地与用户进行交互,提供更加个性化和智能化的服务。例如,在电商平台上,智能客服可以利用该数据集进行训练,从而更有效地解答用户的问题,提升用户满意度。
数据集最近研究
最新研究方向
近年来,中文聊天语料库在自然语言处理领域引起了广泛关注。该数据集整合了多种来源的聊天语料,包括社交媒体、论坛和电视剧对白等,为研究者提供了丰富的多轮对话数据。前沿研究方向主要集中在对话系统的智能化提升,如通过深度学习模型优化对话生成质量,增强对话的连贯性和上下文理解能力。此外,数据集的多样性也促进了跨领域对话模型的研究,如结合情感分析和知识图谱,提升聊天机器人的情感智能和知识推理能力。这些研究不仅推动了聊天机器人在实际应用中的表现,也为人机交互领域的技术进步提供了有力支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录