用于对话系统的中英文语料

github2023-09-01 更新2024-05-31 收录

下载链接：

https://github.com/Samurais/Dialog_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料

This project has collected a series of dialogue corpora sourced from the internet, intended for training Chinese (English) conversational AI agents.

创建时间：

2017-04-08

原始信息汇总

用于对话系统的中英文语料

公开语料

dgk_shooter_min.conv.zip
- 来源：dgk_lost_conv
- 描述：中文电影对白语料，噪音较大，问答关系未完全对应。
The NUS SMS Corpus
- 来源：nus-sms-corpus
- 描述：包含中文和英文短信息语料，据称是世界最大公开的短消息语料。
ChatterBot中文基本聊天语料
- 来源：ChatterBot
- 描述：ChatterBot聊天引擎提供的基本中文聊天语料，量少但质量高。
Datasets for Natural Language Processing
- 来源：nlp-datasets
- 描述：包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，均为英文文本，可机器翻译为中文使用。
小黄鸡语料
- 来源：dgk_lost_conv
- 描述：包含已分词和未分词的小黄鸡语料。
白鹭时代中文问答语料
- 来源：egret-wenda-corpus
- 描述：由白鹭时代官方论坛问答板块精选的10,000+问题中，包含2907个问答。
Chat corpus repository
- 来源：chat_corpus
- 描述：收集自多种开放源的聊天语料，包括开放字幕、英文电影字幕、中文歌词、英文推文。
保险行业QA语料库
- 来源：insuranceqa-corpus-zh
- 描述：通过翻译insuranceQA产生的数据集，包含训练、测试和验证数据。

未公开语料

微软小冰
- 描述：网络上有所流传，但原作者未公开。

中文近义词库

Synonyms
- 来源：Synonyms
- 用途：用于相似度计算、检索、问答匹配、摘要、聚类分类等。

版权

所有原始语料归原作者所有。

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个公开的中英文对话语料资源构建而成，涵盖了电影对白、短信息、聊天对话、问答系统等多种类型的语料。数据来源包括开源社区、论坛问答以及特定领域的语料库，部分语料经过人工筛选和标注，确保了数据的多样性和实用性。

特点

该数据集的特点在于其广泛的数据来源和多样的语料类型，涵盖了从日常对话到特定领域的问答内容。数据集中的语料经过不同程度的预处理，部分语料已分词，便于直接用于模型训练。此外，数据集还包含了正例与负例的平衡设置，适用于问答系统的训练与评估。

使用方法

该数据集可直接用于训练和评估中英文对话系统，尤其是基于问答和闲聊场景的模型。用户可根据需求选择特定类型的语料进行训练，例如电影对白、短信息或保险领域的问答数据。对于未分词的语料，用户可先进行分词处理后再使用。数据集中的正例与负例比例设置为1:10，适合用于分类任务的训练和测试。

背景与挑战

背景概述

用于对话系统的中英文语料数据集由Chatopera团队于2018年创建，旨在为中文和英文聊天机器人的训练提供丰富的对话语料。该数据集汇集了多个公开的中英文对话语料，涵盖了电影对白、短信息、基本聊天语料、问答语料等多种类型。这些语料来源于多个开源项目，如dgk_shooter_min.conv.zip、The NUS SMS Corpus、ChatterBot中文基本聊天语料等。该数据集的创建为自然语言处理领域的研究者和开发者提供了宝贵的资源，特别是在对话系统的训练和优化方面，具有重要的参考价值。

当前挑战

该数据集在构建过程中面临的主要挑战包括语料质量的参差不齐和语料来源的多样性。首先，部分语料如中文电影对白存在噪音较大、问答关系不对应的问题，这增加了数据清洗和预处理的难度。其次，语料来源广泛，涉及电影字幕、短信息、歌词等多种类型，导致语料格式和内容的统一性较差，进一步增加了数据整合的复杂性。此外，未公开语料的获取受限，如微软小冰的语料未能纳入，限制了数据集的完整性和多样性。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，特别是对话系统的开发中，该数据集提供了丰富的中英文对话语料，涵盖了从电影对白到社交媒体短消息的多种类型。这些语料被广泛用于训练聊天机器人，帮助模型理解和生成自然语言对话。

实际应用

在实际应用中，该数据集被用于开发各种聊天机器人，如客户服务机器人、教育辅导机器人和娱乐聊天机器人。这些应用不仅提升了用户体验，还降低了企业的运营成本。

衍生相关工作

基于该数据集，许多研究工作得以展开，包括对话系统的优化、自然语言理解技术的改进以及多语言对话系统的开发。这些研究进一步推动了人工智能在自然语言处理领域的应用和发展。

以上内容由遇见数据集搜集并总结生成