用于对话系统的中英文语料

github2018-11-02 更新2024-05-31 收录

下载链接：

https://github.com/yaoqi/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料

This project has collected a series of dialogue corpora sourced from the internet, intended for training Chinese (English) conversational agents.

创建时间：

2018-11-02

原始信息汇总

用于对话系统的中英文语料概述

公开语料

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未对应好。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大的公开短消息语料。
ChatterBot中文基本聊天语料
- 来源：chatterbot-corpus
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：主要包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，均为英文文本。
小黄鸡
- 来源：dgk_lost_conv
- 描述：据传是小黄鸡的语料，包括已分词和未分词版本。
白鹭时代中文问答语料
- 来源：egret-wenda-corpus
- 描述：由白鹭时代官方论坛问答板块中选择的最佳答案记录汇总，共2907个问答。
Chat corpus repository
- 来源：chat_corpus
- 描述：包括开放字幕、英文电影字幕、中文歌词、英文推文。
保险行业QA语料库
- 来源：insuranceqa-corpus-zh
- 描述：通过翻译insuranceQA产生的数据集，包含训练、测试和验证数据。

未公开语料

微软小冰
- 描述：网络上有所流传，但原作者未公开。

搜集汇总

数据集介绍

构建方式

该数据集的构建主要通过网络搜集，整合了多种来源的中英文对话语料，涵盖了电影对白、短信、基本聊天语料、问答语料以及自然语言处理相关的数据集。其中部分数据集经过人工review，以确保答案的准确性。此外，部分数据集还提供了分词与未分词版本，以适应不同的处理需求。

特点

该数据集的特点在于其来源多样，既包含了生活化的对话，也覆盖了专业领域的问答。数据量大，类型丰富，既有中文也有英文，为训练具有跨语言能力的对话系统提供了基础。特别是经过人工review的问答语料，其准确性和实用性较高。

使用方法

使用该数据集时，用户可以根据需求选择相应的语料集。对于中文对话系统的训练，可以直接使用中文语料；而对于需要中英文对照训练的场合，则可利用中英文双语的语料。对于未公开的语料，用户需要自行搜索获取。在使用前，建议用户了解各数据集的构成和特点，以便更有效地利用这些资源。

背景与挑战

背景概述

在人工智能领域，对话系统的开发依赖于高质量的中英文语料库。本项目收集了多种来源的中文（英文）对话数据集，旨在为训练聊天机器人提供丰富的语料资源。这些语料涵盖了从电影对白、短信息、基本聊天语料到专业领域的问答语料，为研究者和开发者提供了多样化的对话场景和语言表达。该数据集的创建并非出自单一机构或研究人员，而是由多个项目和维护者共同搜集整理，其影响力在于为自然语言处理领域，尤其是对话系统的研究与开发，提供了宝贵的文本素材。

当前挑战

尽管该数据集为对话系统的研究提供了有力支撑，但也面临着诸多挑战。首先，数据集的多样性和质量参差不齐，如中文电影对白语料中的噪音问题以及问答关系对应不准确。其次，构建统一和标准化的对话数据集仍是一项艰巨任务，因为不同来源的语料在格式、标注和质量上存在差异。此外，数据集的版权问题亦不容忽视，需要确保所有数据的使用均符合版权规定。在领域问题解决方面，如何通过这些语料有效提升对话系统的理解、回应质量和交互自然度，是当前研究的重要挑战。

常用场景

经典使用场景

在构建对话系统的领域内，该中英文语料库被广泛应用于训练机器理解自然语言及生成恰当回应的能力。通过对语料库中多样化的对话进行学习，系统能够模拟人类的对话方式，实现与用户的无缝交流。

衍生相关工作

基于该语料库，研究者们衍生出了一系列相关的工作，包括对话系统的性能评估、对话生成的算法研究、以及跨语言对话系统的构建等，进一步拓展了自然语言处理的研究领域。

数据集最近研究