A Repository of Conversational Datasets

Name: A Repository of Conversational Datasets
Creator: PolyAI有限公司，伦敦，英国
Published: 2019-05-29 11:06:52
License: 暂无描述

arXiv2019-05-29 更新2024-07-25 收录

下载链接：

https://github.com/PolyAI-LDN/conversational-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘A Repository of Conversational Datasets’，由英国伦敦的PolyAI有限公司创建，包含数百亿条对话示例。数据集内容丰富，包括Reddit、OpenSubtitles和AmazonQA等多个来源，总计超过7亿条有效的上下文-响应对。创建过程中，研究人员利用Apache Beam和Google Cloud Dataflow进行数据处理，确保数据的高效生成和处理。该数据集主要应用于自然语言处理领域，特别是对话系统的开发和评估，旨在解决对话模型训练和评估的标准化问题。

This dataset, titled 'A Repository of Conversational Datasets', was developed by PolyAI Limited based in London, UK. It contains hundreds of billions of dialogue examples, with rich content sourced from multiple platforms including Reddit, OpenSubtitles, and AmazonQA, totaling over 700 million valid context-response pairs. During its construction, researchers utilized Apache Beam and Google Cloud Dataflow for data processing, ensuring efficient generation and handling of the dataset. This dataset is primarily applied in the field of natural language processing, particularly for the development and evaluation of dialogue systems, aiming to address standardization issues in dialogue model training and evaluation.

提供机构：

PolyAI有限公司，伦敦，英国

创建时间：

2019-04-13

原始信息汇总

对话数据集概述

数据集内容

本仓库提供了一系列用于训练和评估对话响应模型的可重复数据集，包括：

Reddit：包含37亿条评论，结构化为线程对话。
OpenSubtitles：包含超过4亿条电影和电视字幕的台词，提供英语和其他语言版本。
Amazon QA：包含超过360万条关于亚马逊产品的问答对。

数据集详情

每个数据集都有其独立的目录，包含数据流脚本、运行说明和单元测试。以下是各数据集的训练集和测试集大小：

数据集	时间范围	训练集大小	测试集大小
Reddit	2015 - 2019	6.54亿	7200万
OpenSubtitles	英语（其他语言可用）	2.86亿	3300万
Amazon QA	-	300万	30万

这些数据集大小是在过滤和其他处理后的结果。例如，Reddit数据集基于37亿条原始评论，但经过脚本过滤后，包含7.26亿个示例。

数据集格式

数据集以以下两种格式存储：

JSON文本文件：每行一个示例。
Tensorflow记录文件：包含序列化的tensorflow示例协议缓冲区。

每个示例包含一个对话上下文和一个相应的响应，以及一些额外的上下文特征。例如：

javascript { context/1: "Hello, how are you?", context/0: "I am fine. And you?", context: "Great. What do you think of the weather?", response: "It doesnt feel like February." }

数据集创建

数据集使用Apache Beam脚本创建，并在Google Dataflow上运行，以跨多台工作机并行处理数据。

评估指标

推荐使用1-of-100排名准确度作为评估指标，这是一种Recall@k指标，表示在100个候选响应中，正确响应是否位于排名第一的位置。

引用

在使用这些数据集时，请引用以下论文：

bibtex @inproceedings{Henderson2019, author = {Matthew Henderson and Pawe{l} Budzianowski and I{~{n}}igo Casanueva and Sam Coope and Daniela Gerz and Girish Kumar and Nikola Mrk{v{s}}ic and Georgios Spithourakis and Pei-Hao Su and Ivan Vulic and Tsung-Hsien Wen}, title = {A Repository of Conversational Datasets}, year = {2019}, month = {jul}, note = {Data available at github.com/PolyAI-LDN/conversational-datasets}, url = {https://arxiv.org/abs/1904.06472}, booktitle = {Proceedings of the Workshop on {NLP} for Conversational {AI}}, }

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，大规模数据集的匮乏一直是制约模型发展的瓶颈。为突破这一局限，该仓库提供了三大对话数据集的构建脚本，涵盖Reddit、OpenSubtitles和AmazonQA。这些脚本基于Apache Beam和Google Cloud Dataflow实现，可在约1小时40分钟内利用409个并行工作节点完成Reddit数据的处理。构建过程严格遵循确定性分割策略，通过线程ID或产品ID等关键特征将数据按9:1比例划分为训练集与测试集，确保结果可复现。最终生成的TensorFlow Record文件包含上下文、响应及历史语境等特征字段，并经过字符长度过滤与内容清洗，形成数亿级别的对话实例。

使用方法

该仓库专为对话响应选择任务设计，采用1-of-100准确率作为标准化评估指标。使用时，用户可通过仓库提供的脚本生成标准数据集，并利用预置的基线模型快速评估性能。基线方法涵盖基于关键词的TF-IDF与BM25，以及基于向量相似度的USE、ELMo、BERT等嵌入模型。更进一步的，仓库还提供了在完整训练集上训练的POLYAI-ENCODER模型，其通过自注意力机制与哈希映射处理未登录词，在三个数据集上均取得了显著优于基线的结果。研究者可基于此框架复现实验、对比模型，或针对特定场景微调预训练模型，推动对话系统的持续演进。

背景与挑战

背景概述

对话系统作为人工智能领域的核心分支，在任务导向型交互、智能客服及虚拟助手等场景中展现出广泛应用前景。然而，数据驱动的对话建模长期受困于标注数据稀缺与领域覆盖狭窄的瓶颈——传统数据集如MultiWOZ仅包含11.5万轮对话，而DSTC2等单领域数据集规模更小。为突破这一困境，PolyAI团队于2019年由Matthew Henderson等人构建了大规模对话数据集仓库，整合Reddit、OpenSubtitles及AmazonQA三大来源，提供逾7.27亿、3.17亿及370万条上下文-回复对，规模较此前最大公开数据集提升两个数量级。该仓库不仅推动了响应选择模型的标准化评估，更为通用对话预训练提供了关键数据基础，显著影响了后续对话系统的研究范式。

当前挑战

该数据集面临的核心挑战源于多维度复杂性。第一，领域问题层面，对话响应选择需在开放域噪声中精准建模上下文-回复的语义映射，而Reddit等来源存在话题碎片化、非正式表达及多轮依赖，导致传统TF-IDF或嵌入模型在1-of-100准确率上仅达26%-61%，远未达到实用阈值。第二，构建过程中，数据清洗面临巨大工程挑战：需从37亿Reddit评论中过滤短文本（<9字符）、长文本（>128字符）及删除标记，同时确保线程级确定性分割以避免数据泄露；OpenSubtitles中连续字幕行未必对应同一说话者或场景，需设计启发式规则平衡规模与质量。此外，跨域泛化能力不足——AmazonQA上BERT-LARGE-MAP仅达44.1%准确率，凸显电商领域术语特殊性对模型适应性的考验。

常用场景

经典使用场景

该数据集仓库汇聚了来自Reddit、OpenSubtitles和AmazonQA三大来源的数亿级对话样本，为对话系统研究提供了前所未有的数据规模与多样性。其经典使用场景聚焦于对话响应选择任务，即从海量候选回复中精准匹配与上下文语义契合的正确回应。研究者可利用仓库提供的标准化预处理脚本与评测框架，在统一基准上训练和评估各类模型，从而推动对话理解与生成技术的可复现性进步。

解决学术问题

该数据集有效解决了对话领域长期面临的数据稀缺与评测不一致两大瓶颈。传统任务导向型数据集如MultiWOZ、DSTC2等规模有限且领域狭窄，难以支撑大规模通用对话模型的训练。此仓库通过提供跨领域、多风格的亿级对话对，使研究者得以探索上下文与回复间的深层语义映射，并借助1-of-100准确率这一标准化指标，实现不同模型间的公平对比，为对话系统的学术研究奠定了坚实的数据与评估基石。

实际应用

在实际应用中，该数据集驱动的响应选择模型已广泛赋能智能客服、虚拟助手和社交问答系统。例如，电商平台可借助AmazonQA数据训练的模型自动匹配用户问题与产品答案，提升服务效率；而基于Reddit和OpenSubtitles的通用模型则能优化聊天机器人的自然交互体验，支撑如Smart Reply等智能回复功能的精准推荐。这些应用显著降低了人工干预成本，增强了人机对话的流畅性与实用性。

数据集最近研究