conversational-datasets

github2020-04-21 更新2024-05-31 收录

下载链接：

https://github.com/qinguangjun/conversational-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含大型会话响应选择数据集的集合。该仓库提供了用于创建可重复使用的数据集的工具，用于训练和评估会话响应模型。数据集包括Reddit、OpenSubtitles和Amazon QA等，每个数据集都有自己的目录，包含数据流脚本、运行说明和单元测试。

This is a collection of large-scale conversational response selection datasets. The repository provides tools for creating reusable datasets for training and evaluating conversational response models. The datasets include Reddit, OpenSubtitles, and Amazon QA, each with its own directory containing data flow scripts, running instructions, and unit tests.

创建时间：

2019-04-22

原始信息汇总

数据集概述

数据集名称

名称: conversational-datasets
描述: 一个用于对话响应选择的大型数据集集合。

数据集内容

Reddit: 包含2015至2019年的3.7亿条评论，结构化为线程对话。
OpenSubtitles: 超过4亿行来自电影和电视的字幕，提供英语及其他语言版本。
Amazon QA: 超过360万对关于亚马逊产品的问题-响应。

数据集大小

Reddit: 训练集6.54亿，测试集7200万。
OpenSubtitles: 英语训练集2.86亿，测试集3300万。
Amazon QA: 训练集300万，测试集30万。

数据集格式

存储为TensorFlow记录文件，包含序列化的TensorFlow示例协议缓冲区。
训练集和测试集分别存储，每个TensorFlow示例包含对话上下文和响应。

数据集生成

提供脚本和指令以自行生成数据，允许查看和修改预处理和过滤过程。

评估指标

推荐使用1-of-100排名准确度作为评估标准，这是一种Recall@k指标，用于评估模型在100个候选响应中正确排名的能力。

引用信息

当使用此数据集时，请引用论文：A Repository of Conversational Datasets。

搜集汇总

数据集介绍

构建方式

该数据集的构建采取提供脚本和说明的方式，用户可自行生成数据。这些脚本和说明定义了标准数据集，并具有确定性的训练/测试分割，从而确保了在研究论文中可复现的评价。数据集包括Reddit、OpenSubtitles和Amazon QA，它们分别基于数亿条评论、电影和电视剧字幕以及产品问题和回答。在构建过程中，数据会经过过滤和其他处理，例如Reddit数据集从37亿条评论的原始数据库中筛选出7260万个示例。

特点

conversational-datasets的特点在于其庞大的规模和多样性，涵盖了不同场景下的对话数据。它采用TensorFlow记录文件存储数据，并以标准格式提供对话上下文和相应回复。每个示例包含一个对话上下文特征、一个响应特征以及一些额外的上下文特征，这些特征按照对话发生的时间倒序命名，便于处理不同数量的额外上下文。此外，数据集还可能包含一些额外的特征，如Reddit数据集中的上下文和响应作者信息。

使用方法

使用该数据集时，用户需要遵循提供的指南来设置Python环境，并使用Apache Beam pipeline脚本来创建数据集。数据集生成后，可以使用tensorflow库中的函数来读取和操作数据。评估模型时，推荐使用1-of-100排名准确度这一指标，该指标通过在批量中随机选择负样本响应来高效计算。在使用这些数据集进行工作时，应引用相关论文以标明数据来源。

背景与挑战

背景概述

conversational-datasets数据集是由PolyAI团队创建的一组大规模对话响应选择数据集。该数据集的构建起始于2015年，由PolyAI-LDN组织负责维护，其核心研究问题旨在为对话系统的训练和评估提供可复现的大规模数据集。数据集涵盖了Reddit、OpenSubtitles和Amazon QA等多个来源，包含了数十亿级别的对话数据，为自然语言处理领域中的对话系统研究提供了丰富的数据资源。该数据集对相关领域的影响力显著，为对话生成、上下文理解、响应选择等研究方向提供了重要的实验基础。

当前挑战

在构建conversational-datasets数据集的过程中，研究团队面临了诸多挑战。首先，如何从原始的海量数据中过滤和提取出有价值的信息是一个巨大的挑战。其次，构建过程中确保数据集的质量和一致性，以及数据的随机性和可重复性，也是必须克服的难题。此外，所解决的领域问题，即对话系统中的响应选择，需要精确地定义评价标准，例如1-of-100排名准确度，这对于评估模型的性能至关重要。同时，数据集的多样性和覆盖性也是保证模型泛化能力的关键因素。

常用场景

经典使用场景

conversational-datasets数据集是深度学习领域中对话系统研究的重要资源。其经典使用场景在于为训练和评估对话响应模型提供大规模的预训练数据，例如用于生成对话回复的模型。通过Reddit、OpenSubtitles和Amazon QA等子数据集，研究者可以构建能够理解和生成自然语言对话的系统。

衍生相关工作

基于该数据集，研究者们衍生出了众多经典工作，如使用不同神经网络架构的对话响应选择模型，以及针对对话系统性能的各种评估指标。这些研究不仅提升了对话系统的性能，也促进了自然语言处理领域相关技术的发展。

数据集最近研究