conversational-datasets

github2020-02-07 更新2024-05-31 收录

下载链接：

https://github.com/arita37/conversational-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含大型对话响应选择数据集的集合，用于训练和评估对话响应模型。数据集包括Reddit、OpenSubtitles和Amazon QA等，每个数据集都有自己的目录，包含数据流脚本、运行说明和单元测试。

This is a collection of large-scale dialogue response selection datasets, designed for training and evaluating dialogue response models. The datasets include Reddit, OpenSubtitles, and Amazon QA, among others. Each dataset has its own directory, containing data flow scripts, running instructions, and unit tests.

创建时间：

2020-02-07

原始信息汇总

数据集概述

数据集名称

conversational-datasets

数据集描述

这是一个用于对话响应选择的大型数据集集合。该仓库提供了用于创建可重复的数据集的工具，用于训练和评估对话响应模型。

包含的数据集

描述: 包含2015至2019年的3.7亿条评论，结构化为线程对话。
训练集大小: 6.54亿条
测试集大小: 7.2亿条

OpenSubtitles

描述: 包含超过4亿行电影和电视字幕（英语及其他语言）。
训练集大小: 2.86亿行
测试集大小: 3.3亿行

Amazon QA

描述: 包含超过360万对关于亚马逊产品的问答。
训练集大小: 300万对
测试集大小: 30万对

数据集格式

存储方式

JSON文本文件: 每行一个示例。
Tensorflow记录文件: 包含序列化的Tensorflow示例协议缓冲区。

示例结构

每个示例包含以下字符串特征：

context: 对话上下文中的最新文本。
response: 直接回应context的文本。
context/0, context/1等：回溯对话历史的额外上下文特征。

数据集创建

数据集通过Apache Beam管道脚本创建，运行在Google Dataflow上。数据处理流程在多个工作机器上并行化。

评估指标

推荐使用1-of-100排名准确度作为评估指标，这是一种Recall@k度量，用于评估模型在100个候选响应中正确排名响应的能力。

搜集汇总

数据集介绍

构建方式

该数据集通过提供脚本和说明，使用Apache Beam pipeline在Google Dataflow上并行处理原始数据，生成结构化的对话数据。它包括Reddit、OpenSubtitles和Amazon QA三个子数据集，分别来源于社交媒体、电影电视剧字幕和电商产品问答。数据预处理包括过滤掉过长、过短、无信息或无回复的评论，确保数据质量。

特点

conversational-datasets具有大规模、多样化的对话数据源，提供了标准的对话数据格式，并允许用户自定义数据预处理和过滤。数据集以JSON或Tensorflow记录文件的形式存储，包含对话上下文和响应，以及可能的额外上下文信息，支持不同领域的对话AI研究和应用。

使用方法

用户可以通过提供的脚本和说明，在Google Dataflow上生成数据集。数据集可以用于训练和评估对话响应模型。使用数据集时，用户可以根据需要选择JSON或Tensorflow格式，并通过相应的Python代码读取和处理数据。此外，数据集还提供了基准测试结果，以及计算1-of-100排名准确度的方法，方便用户评估模型性能。

背景与挑战

背景概述

conversational-datasets数据集是由PolyAI团队创建的，旨在为对话系统的研究和开发提供一系列大规模的数据集。该数据集的构建始于2019年，由PolyAI-LDN团队核心成员共同参与，其中包括对话上下文和响应的选择等核心研究问题。该数据集对自然语言处理（NLP）领域，特别是在对话系统的开发和评估方面，产生了深远的影响。其通过提供大规模的对话数据，支持了预训练模型在对话系统中的应用，这一方法在图像社区中早已流行，并在NLP社区中逐渐兴起。

当前挑战

在构建conversational-datasets数据集的过程中，研究团队面临了诸多挑战。首先，如何从原始数据中过滤和提取有效的对话上下文和响应是一个重要问题。例如，Reddit数据集的原始评论数据库包含37亿条评论，但经过筛选后仅包含7.26亿条有效示例。其次，构建过程中的另一个挑战是如何确保数据集的质量和一致性，以便于在研究中进行可复现的评价。此外，该数据集在解决领域问题，如对话系统中的响应选择时，还需面对如何提高模型对对话上下文的理解和准确响应生成的挑战。

常用场景

经典使用场景

conversational-datasets数据集是深度学习领域中对话系统训练和评估的重要资源。其经典使用场景在于为机器学习模型提供大规模的对话数据，以便进行预训练，从而在特定领域任务中实现微调。该数据集支持创建具有确定性训练/测试分割的标准化数据集，确保研究论文中的评估具有可重复性。

解决学术问题

该数据集解决了学术研究中对话系统训练数据不足的问题，提供了大规模的对话上下文和响应数据，有助于提升模型对语言理解和响应生成的能力。通过包含不同领域的对话数据，它促进了多turn对话系统的研发，并使得个性化对话和上下文感知的交互成为可能。

衍生相关工作

该数据集衍生了多项相关工作，包括但不限于对话系统的基准测试、新模型的开发、对话数据增强方法的研究以及跨领域对话系统的适应性研究。这些工作推动了对话系统领域的学术研究和实际应用的进展。

以上内容由遇见数据集搜集并总结生成