conversational-datasets

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/PolyAI-LDN/conversational-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个大型数据集的仓库，用于对话响应选择模型的训练和评估。数据集包括Reddit、OpenSubtitles和Amazon QA等，每个数据集都有其特定的数据量和结构。

This repository encompasses a collection of large-scale datasets designed for the training and evaluation of dialogue response selection models. The datasets include Reddit, OpenSubtitles, and Amazon QA, each characterized by its unique data volume and structural configuration.

创建时间：

2019-03-07

原始信息汇总

数据集概述

数据集名称

名称: conversational-datasets
描述: 一个用于会话响应选择训练和评估模型的大型数据集集合。

包含的数据集

Reddit:
- 描述: 2015至2019年的37亿条评论，结构化为线程对话。
- 训练集大小: 6.54亿条
- 测试集大小: 7.2亿条
OpenSubtitles:
- 描述: 超过4亿行电影和电视字幕（英语及其他语言）。
- 训练集大小: 2.86亿行
- 测试集大小: 3.3亿行
Amazon QA:
- 描述: 超过360万对亚马逊产品相关的问题-响应。
- 训练集大小: 300万对
- 测试集大小: 30万对

数据集格式

存储格式:
- JSON文本文件，每行一个示例
- Tensorflow记录文件，包含序列化的Tensorflow示例协议缓冲区
数据结构:
- 每个示例包含会话上下文和相应的响应
- 示例中包含多个字符串特征，如context、response和extra context features

数据集生成

数据集通过Apache Beam管道脚本创建，运行在Google Dataflow上，实现数据处理流程的并行化。
数据集生成后，训练集和测试集分别存储，且训练/测试分割是确定性的。

评估指标

1-of-100排名准确性: 一种Recall@k指标，用于评估模型在100个候选响应中正确排名响应的能力。

引用信息

引用论文: A Repository of Conversational Datasets
BibTeX引用: bibtex @inproceedings{Henderson2019, author = {Matthew Henderson and Pawe{l} Budzianowski and I{~{n}}igo Casanueva and Sam Coope and Daniela Gerz and Girish Kumar and Nikola Mrk{v{s}}ic and Georgios Spithourakis and Pei-Hao Su and Ivan Vulic and Tsung-Hsien Wen}, title = {A Repository of Conversational Datasets}, year = {2019}, month = {jul}, note = {Data available at github.com/PolyAI-LDN/conversational-datasets}, url = {https://arxiv.org/abs/1904.06472}, booktitle = {Proceedings of the Workshop on {NLP} for Conversational {AI}}, }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大规模的对话数据，包括Reddit、OpenSubtitles和Amazon QA等来源。通过Apache Beam管道和Google Dataflow进行数据处理，确保数据处理的高效性和可扩展性。每个数据集的目录中包含数据流脚本、运行说明和单元测试，以保证数据集的生成过程可重复和可验证。数据集的生成过程包括预处理和过滤，如去除过长或过短的评论、无信息评论等，以确保数据质量。

使用方法

使用该数据集时，用户可以选择JSON或Tensorflow格式进行数据读取。对于JSON格式，每行包含一个JSON对象，用户可以通过简单的Python代码进行读取和处理。对于Tensorflow格式，提供了专门的工具脚本和示例代码，帮助用户在Tensorflow环境中高效加载和处理数据。数据集的生成和使用过程均依赖于Google Cloud平台，用户需确保具备相应的云服务权限和配额。

背景与挑战

背景概述

对话数据集（conversational-datasets）是由PolyAI-LDN团队创建并维护的一个大型对话响应选择数据集集合。该数据集的创建旨在为训练和评估对话响应模型提供可重复使用的数据资源。PolyAI-LDN是一家专注于对话人工智能技术的公司，其研究团队致力于通过大规模数据集的预训练来提升对话系统的性能。对话数据集包括来自Reddit、OpenSubtitles和Amazon QA等多个来源的数据，涵盖了数十亿条对话记录。这些数据集的构建不仅推动了自然语言处理（NLP）领域的发展，还为对话系统的研究提供了宝贵的资源。

当前挑战

对话数据集的构建面临多项挑战。首先，数据来源多样，包括社交媒体、电影字幕和电商平台等，这些数据在格式、内容和质量上存在显著差异，需要进行复杂的预处理和过滤。其次，确保数据集的可重复性和标准化是另一大挑战，这要求在数据生成过程中严格定义训练和测试集的分割，并提供详细的生成脚本和说明。此外，对话数据集的规模庞大，处理和存储这些数据需要高效的计算资源和存储解决方案。最后，评估对话系统的性能时，如何设计有效的评估指标和方法也是一个重要挑战，特别是在多轮对话和响应选择任务中。

常用场景

经典使用场景

在自然语言处理领域，conversational-datasets数据集被广泛用于训练和评估对话系统中的响应选择模型。该数据集包括来自Reddit、OpenSubtitles和Amazon QA的大规模对话数据，这些数据为模型提供了丰富的上下文信息和多样化的响应选项。通过使用这些数据集，研究人员能够开发出能够理解对话上下文并选择合适响应的智能对话系统。

解决学术问题

conversational-datasets数据集解决了对话系统研究中的一个关键问题，即如何有效地训练模型以理解和生成自然语言对话。该数据集通过提供大规模、多样化的对话数据，帮助研究人员开发出能够处理复杂对话场景的模型。这不仅推动了对话系统技术的发展，还为相关领域的学术研究提供了宝贵的资源和基准。

实际应用

在实际应用中，conversational-datasets数据集被用于开发各种智能对话系统，如客户服务机器人、虚拟助手和在线聊天系统。这些系统能够根据用户的输入提供准确和相关的响应，从而提高用户体验和满意度。此外，该数据集还支持个性化对话系统的开发，使得对话系统能够更好地适应不同用户的需求和偏好。

数据集最近研究