用于对话系统的中英文语料

github2018-10-19 更新2024-05-31 收录

下载链接：

https://github.com/hongyonggan/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料，包括中文电影对白、中文和英文短信息、中文基本聊天语料等。

This project has collected a series of dialogue corpora sourced from the internet, intended for training Chinese (English) conversational agents. The corpora include dialogues from Chinese films, short messages in both Chinese and English, and basic conversational materials in Chinese.

创建时间：

2018-10-18

原始信息汇总

公开语料

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未对应好。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大公开的短消息语料。
ChatterBot中文基本聊天语料
- 来源：chatterbot-corpus
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：主要包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，均为英文文本。
小黄鸡
- 来源：dgk_lost_conv
- 描述：据传为小黄鸡的语料，包括已分词和未分词版本。
白鹭时代中文问答语料
- 来源：egret-wenda-corpus
- 描述：由白鹭时代官方论坛问答板块中选择的最佳答案记录汇总，共2907个问答。
Chat corpus repository
- 来源：chat_corpus
- 描述：收集自多种开放源的聊天语料，包括开放字幕、英文电影字幕、中文歌词、英文推文。
保险行业QA语料库
- 来源：insuranceqa-corpus-zh
- 描述：通过翻译insuranceQA产生的数据集，包含训练、测试和验证数据。

未公开语料

微软小冰
- 描述：网络上有所流传，但原作者未公开。

搜集汇总

数据集介绍

构建方式

该中英文语料数据集的构建主要通过搜集和整合互联网上公开的对话资源，涵盖电影对白、短信、基本聊天语料、自然语言处理相关数据集、问答语料库以及开放字幕等多种来源。构建过程中涉及对原始数据的筛选、清洗和格式化处理，以保证数据的质量和可用性。

使用方法

使用该数据集时，研究者可以根据需要选择相应的子集进行对话系统的训练。数据集的使用不局限于单一模型，可以广泛用于深度学习、自然语言处理等领域的对话系统开发。用户需遵循数据集的版权和使用规定，合法合规地使用这些资源。

背景与挑战

背景概述

在人工智能领域，对话系统的开发依赖于大量的语言数据集以实现自然的人机交流。本项目所提供的用于对话系统的中英文语料，自诞生之初便承担着为聊天机器人提供训练数据的重任。该项目由多位数据科学家共同协作完成，收集了多种网络资源，旨在为中文及英文对话系统的研究与开发提供基础资源。其创建时间虽不详，但已对自然语言处理领域产生了深远的影响，为相关研究人员提供了宝贵的实验素材，推动了对话系统技术的发展。

当前挑战

尽管该数据集为对话系统的研究提供了有力的支持，但在构建和使用过程中亦面临着诸多挑战。首先，数据集的质量参差不齐，例如中文电影对白语料中的噪音较大，问答关系对应不准确，这为后续的数据清洗和预处理带来了困难。其次，数据集的版权问题亦不容忽视，所有原始语料归原作者所有，使用时需谨慎处理版权事宜。再者，未公开的语料如微软小冰等，获取途径有限，增加了数据集的完整性和多样性的挑战。此外，如何将英文数据集有效地转化为适用于中文对话系统的资源，也是当前研究中的一个重要课题。

常用场景

经典使用场景

在自然语言处理领域，特别是对话系统的开发与训练中，本数据集提供了丰富的中英文对话资源，其经典的使用场景主要在于构建和优化聊天机器人。通过这些语料的训练，聊天机器人可以学习到自然语言表达的多样性，以及对话的语境适应性，进而提升其与用户互动的自然度和准确性。

解决学术问题

该数据集解决了学术研究中对话系统训练样本不足的问题，尤其是中英文跨语言对话的样本稀缺问题。它的存在为研究者在构建多语言对话系统时提供了宝贵的资源，对于提高对话系统的语言理解和生成能力具有重要的学术意义和影响。

实际应用

实际应用中，该数据集被广泛用于提升聊天机器人的语言理解和回应质量。在客服、教育、娱乐等多个领域，基于本数据集训练的聊天机器人能够提供更加人性化的服务，满足用户在实时沟通中的多样化需求。

数据集最近研究