five

用于对话系统的中英文语料

收藏
github2019-11-12 更新2024-05-31 收录
下载链接:
https://github.com/Fancy7777/Dialog_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
本项目收集了一些从网络中找到的用于训练中文(英文)聊天机器人的对话语料,包括中文电影对白、中文和英文短信息、ChatterBot中文基本聊天语料等多种类型。

This project has collected a variety of dialogue corpora sourced from the internet, intended for training Chinese (English) chatbots. The collection includes Chinese movie dialogues, Chinese and English short messages, and basic conversational corpora from ChatterBot in Chinese, among other types.
创建时间:
2018-04-04
原始信息汇总

用于对话系统的中英文语料概述

公开语料

1. dgk_shooter_min.conv.zip

  • 来源: dgk_lost_conv
  • 内容: 中文电影对白语料,噪音较大,问答关系未对应好。

2. The NUS SMS Corpus

  • 来源: nus-sms-corpus
  • 内容: 包含中文和英文短信息语料,据称是世界最大公开的短消息语料。

3. ChatterBot中文基本聊天语料

  • 来源: chatterbot-corpus
  • 内容: ChatterBot聊天引擎提供的基本中文聊天语料,量少但质量高。

4. Datasets for Natural Language Processing

  • 来源: nlp-datasets
  • 内容: 主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,均为英文文本。

5. 小黄鸡

  • 来源: dgk_lost_conv
  • 内容: 小黄鸡的语料,包括已分词和未分词版本。

6. 白鹭时代中文问答语料

  • 来源: egret-wenda-corpus
  • 内容: 由白鹭时代官方论坛问答板块中选择的最佳答案记录,共2907个问答。

7. Chat corpus repository

  • 来源: chat_corpus
  • 内容: 包括开放字幕、英文电影字幕、中文歌词、英文推文。

8. 保险行业QA语料库

未公开语料

1. 微软小冰

  • 状态: 未获取,供以后搜寻。
搜集汇总
数据集介绍
main_image_url
构建方式
该中英文语料数据集的构建主要通过搜集网络上的公开对话资源,涵盖电影对白、短信息、基本聊天语料、自然语言处理相关数据集、问答语料库以及开放字幕等多种来源。构建过程中,涉及对原始数据的筛选、清洗以及分类,旨在为对话系统提供丰富多样的训练素材。
特点
该数据集的特点在于其来源的多样性,不仅包括日常对话,还涉及专业领域如保险行业的问答数据。此外,数据集包含大量未经公开的未标注语料,为研究者和开发者提供了深入挖掘的潜力。在质量上,部分数据集经过人工review,确保了较高的数据质量。
使用方法
使用该数据集时,研究者可根据自身需求选择合适的子集进行训练。针对公开语料,用户可以直接从提供的链接下载并使用。对于未公开的语料,则需要通过进一步的网络搜寻或与原作者联系获取。在使用过程中,应遵守版权规定,尊重原作者的知识产权。
背景与挑战
背景概述
在自然语言处理领域,对话系统的开发依赖于高质量的中英文语料库。本项目收集了多种用于训练中文(英文)聊天机器人的对话语料,旨在促进自然语言处理技术的进步和对话系统的智能化。创建于近年来,该数据集由多位研究者和机构共同维护,核心研究问题是如何通过大规模语料库提高对话系统的准确性和自然度,对自然语言处理领域产生了显著影响。
当前挑战
该数据集在构建过程中遇到的挑战主要包括语料的多样性和质量控制的难题。语料多样性体现在不同来源的文本风格、语境和语言的复杂性,而质量控制则需解决如噪音数据、无对应问答关系等问题。此外,所解决的领域问题,如提高聊天机器人的对话质量,面临着如何处理和理解多轮对话上下文的挑战。
常用场景
经典使用场景
在构建对话系统时,该中英文语料库被广泛用于训练模型以实现自然语言理解和生成。其涵盖了从电影对白到短信交流的多种对话情境,为模型提供了丰富的语境样本,使得系统在理解和回应不同类型的对话输入时更为精准。
实际应用
实际应用中,此语料库被用于开发智能客服、聊天机器人和语音助手等,极大地提升了这些系统在实际对话中的表现,增强了用户体验,并推动了人工智能技术在客户服务领域的应用。
衍生相关工作
基于此数据集,研究者们衍生出了一系列相关工作,包括但不限于对话系统的性能评估、跨语言对话模型的研究以及对话生成策略的优化,进一步推动了对话系统领域的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务