用于对话系统的中英文语料

github2019-06-20 更新2024-05-31 收录

下载链接：

https://github.com/limingyao001/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料

This project has collected a series of dialogue corpora from the internet, intended for training Chinese (English) conversational chatbots.

创建时间：

2019-06-20

原始信息汇总

公开语料

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未对应好。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大的公开短消息语料。
ChatterBot中文基本聊天语料
- 来源：chatterbot-corpus
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：主要包含Question Answering，Dialogue Systems，Goal-Oriented Dialogue Systems三部分，均为英文文本，可机器翻译供中文对话使用。
小黄鸡语料
- 来源：dgk_lost_conv
- 描述：xiaohuangji50w_fenciA.conv.zip（已分词）和xiaohuangji50w_nofenci.conv.zip（未分词）。
白鹭时代中文问答语料
- 来源：egret-wenda-corpus
- 描述：由白鹭时代官方论坛问答板块10,000+问题中，选择被标注了“最佳答案”的纪录汇总而成，包含2907个问答。
Chat corpus repository
- 来源：chat_corpus
- 描述：包括开放字幕、英文电影字幕、中文歌词、英文推文。
保险行业QA语料库
- 来源：insuranceqa-corpus-zh
- 描述：通过翻译insuranceQA产生的数据集，包含train_data、test_data和valid_data，正例与负例比例为1:10。

未公开语料

微软小冰
- 描述：网络上有所流传，但原作者未公开。

搜集汇总

数据集介绍

构建方式

本数据集的构建采取广泛搜集网络资源的方式，涵盖了中文电影对白、短信息、基本聊天语料、自然语言处理相关数据集、小黄鸡对话、问答语料库以及保险行业QA语料库等。构建过程中注重原始数据的多样性，旨在为对话系统提供丰富多样的训练素材。

使用方法

用户在使用本数据集时，可以根据需求选择相应的子集进行训练。对于公开的语料，可以通过链接直接访问并下载；对于未公开的语料，需自行搜寻或联系原作者。在使用时，应遵循版权规定，尊重原作者的知识产权。

背景与挑战

背景概述

在人工智能领域，尤其是自然语言处理（NLP）中，对话系统的训练与发展依赖于高质量、多样化的语料库。本项目旨在汇聚并公开一系列中英文对话语料，以服务于聊天机器人的构建与优化。这些语料库涵盖了从电影对白到短信交流，再到专业领域的问答，为研究人员和开发者提供了丰富的资源。项目创建于网络资源的整合需求，主要研究人员为何云超，并通过GitHub平台进行维护与更新。该数据集在推动对话系统研究、提升机器理解与交互能力方面具有重要影响力。

当前挑战

尽管该数据集提供了丰富的对话资源，但在构建过程中仍面临诸多挑战。首先，语料的质量参差不齐，如中文电影对白语料中存在较大的噪音，问答关系对应不佳。其次，数据集的多样性与覆盖面有限，尤其是专业领域的语料较为稀缺。此外，数据集的版权问题也给整合与共享带来了挑战。在解决领域问题方面，如何利用这些语料训练出既能理解复杂语境又能提供恰当回应的对话系统，是目前研究的主要挑战。

常用场景

经典使用场景

在自然语言处理领域，尤其是对话系统的设计与实现中，该中英文语料库成为训练模型的基础资源。其涵盖了从电影对白到社交媒体交流的多种对话情境，为研究者提供了丰富的语境数据，以供模型学习和优化。

解决学术问题

该数据集有效解决了对话系统中的语义理解和回应生成问题，通过提供实际对话案例，帮助研究者分析和改进对话系统的语境适应性、语言生成能力及准确性，从而推动学术研究的深入。

实际应用

实际应用中，该语料库被广泛用于开发智能客服、聊天机器人等交互系统，助力提升人机对话的自然度和准确性，增强用户体验，提高服务效率。

数据集最近研究