Ubuntu Dialogue Corpus v2.0

github2019-07-15 更新2024-05-31 收录

下载链接：

https://github.com/afcarl/ubuntu-ranking-dataset-creator

下载链接

链接失效反馈

官方服务：

资源简介：

Ubuntu对话语料库v2.0是一个用于排名任务的数据集，它从Ubuntu语料库对话中生成训练、验证和测试数据集。此版本进行了多项更新和错误修复，包括按时间分离训练/验证/测试集、改变上下文长度的采样过程、更改分词和实体替换过程等，以更好地模拟实际应用场景。

The Ubuntu Dialogue Corpus v2.0 is a dataset designed for ranking tasks, generated from dialogues in the Ubuntu Corpus to create training, validation, and test datasets. This version includes several updates and bug fixes, such as the temporal separation of training/validation/test sets, modifications to the sampling process for context length, and changes to the tokenization and entity replacement processes, all aimed at better simulating real-world application scenarios.

创建时间：

2018-06-20

原始信息汇总

数据集概述

数据集名称

Ubuntu Dialogue Corpus v2.0

数据集更新

时间分割：训练集（2004年至2012年4月27日）、验证集（2012年4月27日至8月7日）、测试集（2012年8月7日至12月1日）。
上下文长度采样：验证和测试集的上下文长度从逆分布改为均匀分布。
分词和实体替换：移除了v1中的分词和实体替换，由用户自定义。
语句和轮次结束标记：区分了语句结束(__eou__)和轮次结束(__eot__)。
错误修复：修复了验证和测试集中错误响应与正确响应分布不一致的问题。

数据集生成文件

generate.sh：用于下载数据集的脚本。
create_ubuntu_dataset.py：生成训练、测试和验证数据的脚本。
meta文件夹：包含训练、验证和测试文件的映射文件。

数据集文件

train.csv：训练集，包含对话上下文、候选响应和标签。
valid.csv：验证集，每行包含上下文、真实响应和9个错误响应。
test.csv：测试集，格式与验证集相同。

基准测试结果

Dual Encoder LSTM模型：在不同条件下的召回率。
Dual Encoder RNN模型：在不同条件下的召回率。
TF-IDF模型：在不同条件下的召回率。

超参数

Dual Encoder LSTM模型：详细列出了模型的超参数设置。
Dual Encoder RNN模型：详细列出了模型的超参数设置。

搜集汇总

数据集介绍

构建方式

Ubuntu Dialogue Corpus v2.0数据集的构建，是通过从互联网下载一对一的对话记录，并随机抽样生成训练集、验证集和测试集。该数据集的构建方式注重于模拟真实世界的数据分布，训练集的时间跨度从2004年至2012年4月27日，验证集为2012年4月27日至8月7日，测试集为2012年8月7日至12月1日。

特点

该数据集的特点在于，其更新和错误修复使得v2.0与v1.0的结果不具有可比性。构建中分离了话语结束(`__eou__`)和对话轮次结束(`__eot__`)的标记，改善了上下文的采样程序，并调整了分词和实体替换策略。此外，数据集对真实响应和虚假响应的分布进行了修正，以避免模型利用这一偏差。

使用方法

使用该数据集时，首先需要通过`generate.sh`脚本下载并生成数据集。用户可以根据需要调整参数进行分词、词干提取和词形还原。训练集、验证集和测试集分别以`train.csv`、`valid.csv`和`test.csv`的形式提供，其中包含了上下文、候选响应和标签信息，可用于模型的训练和评估。

背景与挑战

背景概述

Ubuntu Dialogue Corpus v2.0数据集是在Ubuntu Corpus v1.0的基础上进行更新和修正后的成果，由IBM于2015年推出。该数据集的构建旨在促进对话系统的研发，特别是在开源软件社区支持对话的语境中。数据集以一对一对话的形式，涵盖了从2004年至2012年的对话记录。主要的研究人员或机构为IBM，其核心研究问题是提高对话系统的准确性和适应性，对自然语言处理领域产生了显著影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何更真实地模拟现实世界对话的时间序列特性，处理对话上下文的长度变化，以及改进词汇标记和实体替换策略。此外，数据集在解决领域问题如对话分类和响应生成时，面临的挑战包括：确保模型能有效地区分真实响应与干扰响应，提高模型在处理长时依赖关系方面的能力。

常用场景

经典使用场景

Ubuntu Dialogue Corpus v2.0数据集作为自然语言处理领域的重要资源，其经典使用场景主要集中在对话生成与理解任务中。该数据集提供了大量的对话上下文与响应，使得研究者能够训练模型以预测对话中的下一个可能响应，进而构建更加智能的聊天机器人。

解决学术问题

该数据集解决了对话系统中如何处理长期依赖、区分真实与错误响应等关键学术问题。通过分离训练、验证和测试集，并按照时间顺序排列，它为研究者在真实世界应用中的模型训练和评估提供了强有力的支持。此外，它还通过改进的标记和实体替换策略，使得数据集更加接近实际应用场景。

衍生相关工作

基于Ubuntu Dialogue Corpus v2.0数据集，研究者们已经衍生出多项相关工作，如构建双编码器LSTM模型、RNN模型和TF-IDF模型等，这些工作不仅提高了对话系统的性能，也推动了自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集