Dialog_Corpus

github2019-03-23 更新2024-05-31 收录

下载链接：

https://github.com/qhduan/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料。

This project has collected a series of dialogue corpora sourced from the internet, intended for training Chinese (English) conversational agents.

创建时间：

2018-02-07

原始信息汇总

用于对话系统的中英文语料

公开语料

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未对应好。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大的公开短消息语料。
ChatterBot中文基本聊天语料
- 来源：chatterbot-corpus
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，均为英文文本，可机器翻译为中文使用。
小黄鸡语料
- 来源：dgk_lost_conv
- 描述：包含已分词和未分词的小黄鸡语料。
白鹭时代中文问答语料
- 来源：egret-wenda-corpus
- 描述：从白鹭时代官方论坛问答板块中选取的10,000+问题中，标注了“最佳答案”的记录，共2907个问答。
Chat corpus repository
- 来源：chat_corpus
- 描述：包含开放字幕、英文电影字幕、中文歌词、英文推文。
保险行业QA语料库
- 来源：insuranceqa-corpus-zh
- 描述：通过翻译insuranceQA产生的数据集，包含训练、测试和验证数据。

未公开语料

微软小冰

版权

所有原始语料归原作者所有。

搜集汇总

数据集介绍

构建方式

Dialog_Corpus数据集的构建主要通过网络搜集多种中英文对话语料，涵盖电影对白、短信息、基本聊天语料、问答语料以及开放字幕等多种来源，旨在为训练聊天机器人系统提供丰富的训练资源。构建过程中，对部分英文文本进行了机器翻译以适配中文对话系统，并经过人工review对数据进行筛选和标注，确保数据质量。

使用方法

用户在使用Dialog_Corpus数据集时，可以根据具体需求选择合适的语料类型。数据集已提供多种格式的语料文件，用户可以直接下载使用。针对未公开的语料，用户需要自行搜寻获取。在使用过程中，应遵守版权规定，合理使用数据集，避免侵犯原作者的合法权益。

背景与挑战

背景概述

Dialog_Corpus数据集是一套用于训练对话系统的语料库，涵盖了中文和英文对话资源。其创建旨在为研究者提供多样化的训练样本，以促进自然语言处理领域，特别是对话系统的发展。该数据集由多个来源的语料构成，包括电影对白、短信息、聊天引擎基本语料、问答语料等，汇集了不同场景下的对话样本，丰富了对话系统的训练素材。Dialog_Corpus的构建时间为未明确标示，但其搜集和整理工作体现了研究者在自然语言处理领域的不懈探索，对推动中文对话系统的进步具有重要意义。

当前挑战

Dialog_Corpus数据集在构建和应用过程中面临诸多挑战。首先，数据的质量参差不齐，如中文电影对白语料中存在较大的噪音，问答关系对应不准确。其次，数据集的规模和多样性有限，尽管包含了多种类型的对话数据，但与实际应用中的对话场景相比，仍显不足。此外，数据集的版权问题亦是一大挑战，部分语料未明确版权归属，可能影响其合法使用和传播。在数据处理方面，如何有效地清洗、标注和利用这些语料，以及如何将未公开的语料纳入数据集，也是当前面临的实际问题。

常用场景

经典使用场景

Dialog_Corpus作为对话系统的训练资源，其经典使用场景在于为聊天机器人提供丰富多样的对话样本，以提升机器人在实际对话中的理解力、回应能力和交互的自然性。

解决学术问题

该数据集有效解决了自然语言处理领域中对话系统训练样本不足的问题，为学术研究者提供了海量的中英文对话语料，有助于推动对话系统的算法改进和性能提升，对于深入研究对话系统的语义理解、情感分析和回应生成等关键问题具有重大意义。

实际应用

在实际应用中，Dialog_Corpus被广泛应用于各类聊天机器人的开发和优化，例如在客户服务、虚拟助手、在线咨询等领域，大幅提高了机器人的对话质量和用户满意度。

数据集最近研究