Dialog_Corpus

github2017-05-08 更新2024-05-31 收录

下载链接：

https://github.com/flydsc/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料，包括中文电影对白、中英文短信息、ChatterBot中文基本聊天语料、自然语言处理相关数据集以及小黄鸡语料等。

This project has collected a variety of dialogue corpora sourced from the internet, intended for training Chinese (English) chatbots. The collection includes dialogues from Chinese movies, short messages in both Chinese and English, basic conversational corpora from ChatterBot in Chinese, datasets related to natural language processing, as well as the Xiao Huang Ji (Little Yellow Chicken) corpus.

创建时间：

2017-03-15

原始信息汇总

用于对话系统的中英文语料概述

公开语料

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未对应好。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大公开的短消息语料。
ChatterBot中文基本聊天语料
- 来源：ChatterBot/chinese
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：包含Question Answering、Dialogue Systems、Goal-Oriented Dialogue Systems三部分，均为英文文本，可机器翻译为中文使用。
小黄鸡语料
- 来源：dgk_lost_conv/results
- 描述：包含已分词和未分词的语料，据传为小黄鸡的语料。

未公开语料

微软小冰
- 描述：网络上有所流传，但未获取。

版权

所有原始语料归原作者所有。

搜集汇总

数据集介绍

构建方式

Dialog_Corpus数据集的构建，主要通过网络搜集多种类型的中文与英文对话语料。这些语料包括电影对白、短信息、聊天引擎基本对话以及自然语言处理相关数据集，部分语料经过机器翻译以适配中文对话系统的需求。未公开的语料则来自于网络流传，虽未获取但亦被记录以供后续搜寻。

使用方法

使用Dialog_Corpus数据集时，用户可通过访问提供的链接下载公开的语料，并根据需要进行预处理和清洗，如分词、去噪等步骤。对于英文数据集，可通过机器翻译转换为中文，以适应中文对话系统的训练需求。用户在利用这些数据集时，应遵守相应的版权规定，尊重原作者的知识产权。

背景与挑战

背景概述

Dialog_Corpus数据集的构建旨在促进中文（英文）对话系统的研发。该数据集的创建汇集了网络上的多种中英文对话语料，其收集工作始于网络资源的整理与整合。项目由研究人员何云超主导，汇集了包括电影对白、短信、以及聊天机器人基本语料在内的多种类型的数据资源。Dialog_Corpus不仅为自然语言处理领域提供了丰富的训练材料，而且对推动对话系统技术的发展起到了关键作用，其影响力在学术界和产业界均得到了广泛认可。

当前挑战

尽管Dialog_Corpus数据集为对话系统的研究提供了宝贵的资源，但在数据集构建过程中仍面临诸多挑战。首先，语料的噪音问题显著，如中文电影对白中问答关系不明确，这增加了后续数据清洗和处理的难度。其次，构建具有高质量和多样性的对话语料库需要大量的人力物力投入，尤其是对于未公开的语料，获取途径有限。此外，语料的版权问题也给数据集的广泛应用带来了挑战。这些因素共同构成了Dialog_Corpus数据集在实际应用中需要解决的关键问题。

常用场景

经典使用场景

Dialog_Corpus作为对话系统领域的重要资源，其经典的使用场景主要在于为中文（英文）聊天机器人的训练提供丰富的语料支持。该数据集涵盖了从网络搜集的电影对白、短信息以及基本聊天语料等，使得研究者和开发者能够利用这些数据进行对话系统的构建和优化，进而提升机器人的对话质量和用户体验。

解决学术问题

该数据集有效解决了自然语言处理领域中，尤其是在对话系统开发上，缺乏高质量中文语料的问题。通过提供多样化的对话文本，Dialog_Corpus助力研究者深入探索对话上下文理解、语言生成和情感分析等关键问题，对推动中文对话系统的学术研究和应用发展具有重要的意义和影响。

实际应用

在实际应用中，Dialog_Corpus被广泛用于训练具有自然对话能力的聊天机器人，这些机器人可以应用于客服、教育、娱乐等多个领域，提升服务的智能化和用户的互动体验。此外，该数据集也使得构建能够理解并生成中文语言的人工智能系统成为可能，为智能语音助手和智能客服的开发提供了强有力的数据支撑。

数据集最近研究