A Repository of Conversational Datasets

Name: A Repository of Conversational Datasets
Creator: PolyAI有限公司，伦敦，英国
Published: 2019-05-29 11:06:52
License: 暂无描述

arXiv2019-05-29 更新2024-07-25 收录

下载链接：

https://github.com/PolyAI-LDN/conversational-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘A Repository of Conversational Datasets’，由英国伦敦的PolyAI有限公司创建，包含数百亿条对话示例。数据集内容丰富，包括Reddit、OpenSubtitles和AmazonQA等多个来源，总计超过7亿条有效的上下文-响应对。创建过程中，研究人员利用Apache Beam和Google Cloud Dataflow进行数据处理，确保数据的高效生成和处理。该数据集主要应用于自然语言处理领域，特别是对话系统的开发和评估，旨在解决对话模型训练和评估的标准化问题。

提供机构：

PolyAI有限公司，伦敦，英国

创建时间：

2019-04-13

原始信息汇总

对话数据集概述

数据集内容

本仓库提供了一系列用于训练和评估对话响应模型的可重复数据集，包括：

Reddit：包含37亿条评论，结构化为线程对话。
OpenSubtitles：包含超过4亿条电影和电视字幕的台词，提供英语和其他语言版本。
Amazon QA：包含超过360万条关于亚马逊产品的问答对。

数据集详情

每个数据集都有其独立的目录，包含数据流脚本、运行说明和单元测试。以下是各数据集的训练集和测试集大小：

数据集	时间范围	训练集大小	测试集大小
Reddit	2015 - 2019	6.54亿	7200万
OpenSubtitles	英语（其他语言可用）	2.86亿	3300万
Amazon QA	-	300万	30万

这些数据集大小是在过滤和其他处理后的结果。例如，Reddit数据集基于37亿条原始评论，但经过脚本过滤后，包含7.26亿个示例。

数据集格式

数据集以以下两种格式存储：

JSON文本文件：每行一个示例。
Tensorflow记录文件：包含序列化的tensorflow示例协议缓冲区。

每个示例包含一个对话上下文和一个相应的响应，以及一些额外的上下文特征。例如：

javascript { context/1: "Hello, how are you?", context/0: "I am fine. And you?", context: "Great. What do you think of the weather?", response: "It doesnt feel like February." }

数据集创建

数据集使用Apache Beam脚本创建，并在Google Dataflow上运行，以跨多台工作机并行处理数据。

评估指标

推荐使用1-of-100排名准确度作为评估指标，这是一种Recall@k指标，表示在100个候选响应中，正确响应是否位于排名第一的位置。

引用

在使用这些数据集时，请引用以下论文：

bibtex @inproceedings{Henderson2019, author = {Matthew Henderson and Pawe{l} Budzianowski and I{~{n}}igo Casanueva and Sam Coope and Daniela Gerz and Girish Kumar and Nikola Mrk{v{s}}ic and Georgios Spithourakis and Pei-Hao Su and Ivan Vulic and Tsung-Hsien Wen}, title = {A Repository of Conversational Datasets}, year = {2019}, month = {jul}, note = {Data available at github.com/PolyAI-LDN/conversational-datasets}, url = {https://arxiv.org/abs/1904.06472}, booktitle = {Proceedings of the Workshop on {NLP} for Conversational {AI}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集