Dialog_Corpus

github2022-01-01 更新2024-05-31 收录

下载链接：

https://github.com/lianghaixing/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料，包括多种类型的对话数据集，如电影对白、短信息、基本聊天语料等。

This project has collected a number of dialogue corpora sourced from the Internet for training Chinese (English) chatbots, including various types of dialogue datasets such as movie dialogues, short messages, basic chat corpora, etc.

创建时间：

2018-03-28

原始信息汇总

用于对话系统的中英文语料概述

公开语料

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未完全对应。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大的公开短消息语料。
ChatterBot中文基本聊天语料
- 来源：chatterbot-corpus
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，数量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：主要包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，均为英文文本，可机器翻译为中文使用。
小黄鸡
- 来源：dgk_lost_conv
- 描述：据传为小黄鸡语料，包括已分词和未分词版本。
白鹭时代中文问答语料
- 来源：egret-wenda-corpus
- 描述：从白鹭时代官方论坛问答板块中选取的10,000+问题，包含2907个问答，每个问题有可接受的答案。
Chat corpus repository
- 来源：chat_corpus
- 描述：收集自多种开放源的聊天语料，包括开放字幕、英文电影字幕、中文歌词、英文推文。
保险行业QA语料库
- 来源：insuranceqa-corpus-zh
- 描述：通过翻译insuranceQA产生的数据集，包含训练、测试和验证数据，正例与负例比例为1:10。

未公开语料

微软小冰
- 描述：网络上有所流传，但原作者未公开。

搜集汇总

数据集介绍

构建方式

Dialog_Corpus数据集的构建主要依赖于从多个公开来源搜集的中英文对话语料。这些语料涵盖了电影对白、短信息、聊天记录、问答系统等多种类型，部分语料经过人工筛选和标注，以确保其质量和适用性。数据集的构建过程中，特别注重了语料的多样性和代表性，以便为对话系统的训练提供丰富的语言环境。

特点

Dialog_Corpus数据集的特点在于其广泛的语料来源和多样的对话类型。数据集不仅包含了电影对白和短信息等日常对话，还涵盖了特定领域的问答语料，如保险行业的QA语料。此外，数据集中的部分语料经过人工审核，确保了对话的连贯性和逻辑性，为训练高质量的对话系统提供了坚实的基础。

使用方法

Dialog_Corpus数据集的使用方法主要包括直接下载和预处理。用户可以从GitHub页面提供的链接下载所需的语料文件，并根据具体需求进行进一步的处理，如分词、去噪等。对于需要特定领域对话系统的开发者，可以选择相应的语料进行训练。此外，数据集中的英文语料可以通过机器翻译转换为中文，以适应中文对话系统的训练需求。

背景与挑战

背景概述

Dialog_Corpus数据集是一个专门为训练中英文聊天机器人而构建的语料库，由何云超等人于近年整理并公开。该数据集汇集了来自多个公开来源的对话数据，涵盖了电影对白、短信息、基本聊天语料、问答系统等多种类型。这些数据不仅包括中文和英文的对话内容，还涉及保险行业等特定领域的问答语料。该数据集的构建旨在为自然语言处理领域的研究者和开发者提供一个多样化的对话语料资源，以支持对话系统的训练与优化。其影响力主要体现在为对话系统的开发提供了丰富的语料支持，推动了聊天机器人技术的进步。

当前挑战

Dialog_Corpus数据集在构建过程中面临多重挑战。首先，数据来源的多样性和质量参差不齐，部分语料如电影对白存在噪音较大、问答关系不对应等问题，需进行大量清洗和标注工作。其次，数据集的规模与覆盖领域有限，尤其是中文语料的丰富度不足，难以满足复杂对话场景的需求。此外，未公开语料的获取困难，如微软小冰等优质资源未能纳入，限制了数据集的完整性和应用广度。最后，数据集的版权问题也需谨慎处理，确保所有语料的使用符合法律和道德规范。这些挑战共同构成了该数据集在推动对话系统研究中的主要障碍。

常用场景

经典使用场景

Dialog_Corpus数据集广泛应用于对话系统的训练和评估，特别是在中文和英文聊天机器人的开发中。该数据集通过提供多样化的对话语料，帮助研究人员和开发者构建更加自然和流畅的对话模型。电影对白、短信息、歌词等多种类型的语料为模型提供了丰富的语言环境，使其能够更好地理解和生成人类语言。

衍生相关工作

基于Dialog_Corpus数据集，许多经典的自然语言处理工作得以衍生。例如，ChatterBot聊天引擎利用该数据集中的高质量语料，开发了支持多语言的聊天机器人框架。此外，保险行业的QA语料库也被用于构建行业专用的问答系统，推动了垂直领域对话系统的发展。这些工作不仅扩展了数据集的应用范围，也为对话系统的研究提供了新的方向。

数据集最近研究