Ubuntu Dialogue Corpus v2.0
收藏github2016-07-20 更新2024-05-31 收录
下载链接:
https://github.com/zaxliu/ubuntu-ranking-dataset-creator
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于排名任务,从Ubuntu语料库对话中创建训练、验证和测试数据集。v2.0版本进行了多项更新和错误修复,包括按时间分离训练/验证/测试集,改变采样程序以增加平均上下文长度,以及修复了错误响应分布不均的问题。
This dataset is designed for ranking tasks, created from the Ubuntu dialogue corpus to form training, validation, and test datasets. Version 2.0 introduces several updates and bug fixes, including the temporal separation of training/validation/test sets, modifications to the sampling procedure to increase the average context length, and corrections to the uneven distribution of erroneous responses.
创建时间:
2016-07-20
原始信息汇总
数据集概述
数据集版本更新
- Ubuntu Dialogue Corpus v2.0 相较于 v1.0 进行了多项更新和错误修复,包括:
- 训练/验证/测试集按时间分离,更接近实际应用场景。
- 验证和测试集的上下文长度采样从逆分布改为均匀分布,增加平均上下文长度。
- 修改了分词和实体替换过程,由用户自定义。
- 区分了话语结束 (
__eou__) 和轮次结束 (__eot__)。 - 修复了验证和测试集中错误响应与真实响应分布不一致的问题。
数据集生成文件
- generate.sh: 用于下载和生成数据集的脚本。
- create_ubuntu_dataset.py: 从Ubuntu Corpus 1生成训练、测试和验证数据的脚本。
- meta folder: 包含映射原始对话文件到训练、验证、测试集的CSV文件。
数据集文件
- train.csv: 训练集,包含对话上下文、候选响应和标签(0或1)。
- valid.csv: 验证集,每行包含上下文、真实响应和9个错误响应。
- test.csv: 测试集,格式与验证集相同。
基准测试结果
- Dual Encoder LSTM model: 不同条件下的召回率。
- Dual Encoder RNN model: 不同条件下的召回率。
- TF-IDF model: 不同条件下的召回率。
超参数设置
- Dual Encoder LSTM model 和 Dual Encoder RNN model 的超参数设置,包括学习率、批次大小、隐藏层大小等。
搜集汇总
数据集介绍

构建方式
Ubuntu Dialogue Corpus v2.0的构建,始于对Ubuntu Corpus v1.0的改进与优化。数据集通过分离训练/验证/测试集的时间分布,改进采样程序,以及调整分词和实体替换策略,旨在更贴近实际应用场景,并提高对长时依赖关系的建模能力。具体而言,该数据集的构建涉及从网络下载一对一对话,并随机抽样生成训练、验证和测试数据集。
特点
该数据集的特点在于,首先,时间分布上更贴近实际应用,其次,采样程序的改进增加了平均上下文长度,有助于建模长期依赖关系。此外,去除过于激进的分词和实体替换策略,使得用户可以自行决定使用何种方案,提升了数据集的灵活性。数据集标注清晰,区分了话语结束(`__eou__`)与对话轮次结束(`__eot__`),进一步优化了数据的质量和可用性。
使用方法
使用该数据集时,用户首先需要通过`generate.sh`脚本下载并生成数据集。该脚本调用`create_ubuntu_dataset.py`,用户可通过参数调整数据集生成过程,包括是否分词、词干提取和词形还原等。生成的数据集包含训练集、验证集和测试集,分别存储在`train.csv`、`valid.csv`和`test.csv`文件中。每个文件中记录了上下文、候选回应及标签,验证集和测试集还包含了随机的干扰项,以评估模型的准确性和鲁棒性。
背景与挑战
背景概述
Ubuntu Dialogue Corpus v2.0数据集是在Ubuntu Corpus v1.0的基础上进行更新和修复后的成果。该数据集由IBM于2015年推出,旨在为研究人员提供用于自然语言处理,尤其是对话系统训练的对话数据。数据集覆盖了从2004年至2012年的对话记录,并根据时间顺序划分为训练集、验证集和测试集,以模拟现实世界中对模型进行训练和测试的情景。Ubuntu Dialogue Corpus v2.0在对话上下文长度采样、标记和实体替换等方面进行了优化,使得数据集更加贴近真实对话环境,对相关领域的研究产生了重要影响。
当前挑战
该数据集在研究领域中面临的挑战主要包括:如何更准确地模拟真实对话中的长期依赖关系,以及如何在保持数据真实性的同时,有效处理对话中的噪声和多样性。在构建过程中,数据集的创建者需要解决的技术挑战包括:合理划分数据集以确保模型训练的有效迁移性,平衡正负例的比例以维持数据集的代表性,以及确保不同版本数据集之间结果的不可比性,避免误导研究结论。
常用场景
经典使用场景
Ubuntu Dialogue Corpus v2.0数据集作为自然语言处理领域中的对话系统训练资源,其经典使用场景在于构建和训练能够理解及生成人类对话的机器学习模型。该数据集提供了大量的对话上下文与响应配对,使得模型能够学习到如何在特定上下文中生成合适的回复。
实际应用
在实际应用中,Ubuntu Dialogue Corpus v2.0数据集可用于开发智能对话助手、客服机器人等交互式对话系统。这些系统能够在技术支持、用户咨询等场景中,依据用户输入提供准确的响应,从而提升用户体验和服务效率。
衍生相关工作
基于Ubuntu Dialogue Corpus v2.0,研究者们衍生出了多种相关工作,包括对话系统的性能评估指标、对话生成模型的结构优化、对话数据的增强与预处理方法等,推动了对话系统领域的研究进展和技术创新。
以上内容由遇见数据集搜集并总结生成



