Dialog_Corpus

github2018-04-12 更新2024-05-31 收录

下载链接：

https://github.com/orsonwang/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料，包括中文电影对白、中文和英文短信息、ChatterBot中文基本聊天语料等。

This project has collected a series of dialogue corpora sourced from the internet, intended for training Chinese (English) chatbots. The corpora include dialogues from Chinese movies, short messages in both Chinese and English, and basic conversational data from ChatterBot in Chinese.

创建时间：

2017-11-07

原始信息汇总

数据集概述

本项目收集了用于训练中英文聊天机器人的对话语料，主要包括以下公开语料：

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未对应好。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大公开的短消息语料。
ChatterBot中文基本聊天语料
- 来源：chatterbot-corpus
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：主要包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，均为英文文本，可机器翻译为中文使用。
小黄鸡语料
- 来源：dgk_lost_conv
- 描述：据传是小黄鸡的语料，包括已分词和未分词版本。
白鹭时代中文问答语料
- 来源：egret-wenda-corpus
- 描述：从白鹭时代官方论坛问答板块中选取的10,000+问题，包含2907个问答，人工审核。
Chat corpus repository
- 来源：chat_corpus
- 描述：收集自多种开放源的聊天语料，包括开放字幕、英文电影字幕、中文歌词、英文推文。
保险行业QA语料库
- 来源：insuranceqa-corpus-zh
- 描述：通过翻译insuranceQA产生的数据集，包含训练、测试和验证数据，正例与负例比例为1:10。

此外，项目中还提到了一些未公开的语料，如微软小冰，但目前尚未获取。

搜集汇总

数据集介绍

构建方式

Dialog_Corpus数据集的构建主要依赖于网络资源的整合，其搜集了包括中文电影对白、短信息、基本聊天语料、问答语料以及开放字幕等多种类型的对话资源。其中部分数据集经过人工review，以确保答案的准确性和质量。此外，部分英文数据集通过机器翻译转化为中文，以拓宽语料库的多样性。

特点

该数据集的特点在于其多样性、开放性及实用性。它不仅包含了不同场景下的对话，如电影对白、短消息、社交媒体交流等，而且涵盖了问答系统所需的结构化数据。同时，数据集的构建注重质量与数量的平衡，部分数据经过人工审核，确保了数据的质量。

使用方法

使用Dialog_Corpus数据集时，用户需遵循相关数据的使用条款。数据集可通过链接访问原始地址进行下载。用户在使用前，应对数据进行适当的预处理，如清洗、分词等。对于英文数据集，可能还需进行机器翻译以适配中文对话系统的训练需求。此外，针对特定场景下的对话系统训练，用户可选择相应的子集进行定制化训练。

背景与挑战

背景概述

Dialog_Corpus是一个旨在促进中文（英文）聊天机器人训练的数据集，其创建汇集了来自网络的多源对话语料。该项目由多名研究人员共同维护，旨在为自然语言处理领域中的对话系统提供一个全面的基础资源。自推出以来，Dialog_Corpus对相关研究产生了重要影响，特别是在提升机器对话能力、促进跨语言对话系统构建等方面。

当前挑战

该数据集在构建过程中所遇到的挑战包括语料质量参差不齐、对话上下文信息的缺失、以及部分语料版权归属不明确等问题。此外，在所解决的领域问题方面，Dialog_Corpus面临着如何提升对话的自然度和连贯性、处理多轮对话中的上下文依赖性、以及有效融合中英文语料以增强跨语言对话系统的性能等挑战。

常用场景

经典使用场景

Dialog_Corpus作为对话系统的训练资源，其经典使用场景在于为聊天机器人提供丰富的中文（英文）对话样本，以增强机器人在实际交流中的语境理解能力与应答水平。该数据集通过涵盖多样化的对话情境，为机器学习模型提供了充足的学习材料，进而促进模型的性能优化。

实际应用

在实际应用中，Dialog_Corpus被广泛用于开发智能客服系统、语音助手以及社交聊天机器人等。这些应用能够利用该数据集进行有效的训练，以提升服务的自然度和准确性，满足用户在实时沟通中的多样化需求。

衍生相关工作

基于Dialog_Corpus，研究者们衍生出了一系列相关经典工作，包括但不限于对话系统的评价标准制定、跨语言对话模型的研究以及特定领域对话系统的构建等。这些工作不仅扩展了原数据集的应用范围，也为对话系统的研究提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集