Dialog_Corpus

github2019-10-11 更新2024-05-31 收录

下载链接：

https://github.com/SeanLee97/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料。搜集到的数据集包括中文电影对白语料、中文和英文短信息语料、ChatterBot中文基本聊天语料、自然语言处理相关数据集、小黄鸡语料、白鹭时代中文问答语料以及来自各种开放源的聊天语料。

本项目汇聚了源自网络的多类对话语料，旨在为中文（英文）聊天机器人的训练提供支持。所搜集的数据集涵盖了包括电影对白、短信息、ChatterBot基本聊天语料、自然语言处理领域相关数据集、小黄鸡语料、白鹭时代中文问答语料等，以及源自众多开放源代码的聊天语料。

创建时间：

2017-07-25

原始信息汇总

用于对话系统的中英文语料

公开语料

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未对应好。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大公开的短消息语料。
ChatterBot中文基本聊天语料
- 来源：ChatterBot
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：包含Question Answering，Dialogue Systems，Goal-Oriented Dialogue Systems三部分，均为英文文本，可机器翻译为中文。
小黄鸡
- 来源：dgk_lost_conv
- 描述：xiaohuangji50w_fenciA.conv.zip（已分词）和xiaohuangji50w_nofenci.conv.zip（未分词）。
白鹭时代中文问答语料
- 来源：egret-wenda-corpus
- 描述：由白鹭时代官方论坛问答板块10,000+问题中，选择被标注了“最佳答案”的纪录汇总而成，包含2907个问答。
Chat corpus repository
- 来源：chat_corpus
- 描述：收集自多种开放源的聊天语料，包括开放字幕、英文电影字幕、中文歌词、英文推文。

未公开语料

微软小冰
- 描述：网络上有所流传，但原作者未公开。

版权

所有原始语料归原作者所有。

搜集汇总

数据集介绍

构建方式

Dialog_Corpus数据集的构建汇集了多种来源的中英文对话语料，涵盖了电影对白、短信、基本聊天语料、自然语言处理相关数据集、论坛问答以及开放字幕等多种类型的文本资源。构建过程中，既包括了原始数据的收集，也包括了对部分数据进行的人工标注和清洗，以确保数据质量与对话相关性。

特点

该数据集显著的特点在于其多样性及实用性，不仅包含日常生活对话，亦涉及专业领域问答。此外，部分数据集经过人工审核，提高了数据的准确性和可用性。Dialog_Corpus还包含了未公开的语料引用，为研究者提供了进一步探索的可能性。

使用方法

使用Dialog_Corpus数据集时，用户可根据需求选择相应的子集进行训练或测试。由于数据来源多样，建议在使用前进行适当的数据预处理，包括数据清洗、格式统一等步骤。针对未公开的语料，用户需要自行寻找获取途径。具体使用时，应遵守版权规定，尊重原作者的知识产权。

背景与挑战

背景概述

Dialog_Corpus数据集，专为训练中英文聊天机器人系统而构建，其创建旨在为自然语言处理领域提供丰富的对话语料资源。该数据集的搜集工作始于互联网上的开源对话资料，涉及多种形式，如电影对白、短信息、基本聊天记录等，由何云超等研究人员负责整理。Dialog_Corpus的建立，对于提升聊天机器人的语境理解能力、丰富对话系统的语言表达有着重要影响，并在自然语言处理领域产生了积极的研究推动作用。

当前挑战

Dialog_Corpus在构建和应用过程中面临诸多挑战。首先，数据集的质量参差不齐，如中文电影对白语料中噪音较大，问答关系对应不准确，这增加了数据清洗和处理的难度。其次，语料的多样性和规模限制了模型对于复杂语境的理解能力。再者，数据集中未公开语料的获取受限，不利于研究的深入。此外，如何保护用户隐私和遵守版权法规，也是使用该数据集时必须考虑的问题。

常用场景

经典使用场景

Dialog_Corpus数据集是自然语言处理领域内的宝贵资源，其经典使用场景主要在于训练和评估中文（英文）聊天机器人。该数据集通过提供丰富的对话实例，助力研究人员精确地模拟人类对话行为，以实现更自然、流畅的机器对话能力。

解决学术问题

该数据集解决了对话系统中语境理解、语义解析、回应生成等关键学术问题，对于提升机器人在信息检索、情感分析、意图识别等方面的性能具有显著意义。其贡献在于促进了机器学习模型对复杂语言现象的理解与处理，推动了人机交互向更高层次发展。

衍生相关工作

基于Dialog_Corpus数据集，研究人员衍生出了一系列相关研究工作，如对话生成模型、多轮对话系统、对话状态追踪等，这些研究进一步拓宽了自然语言处理技术在对话系统领域的应用范围，为后续的学术探索和技术创新奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集