five

A Repository of Conversational Datasets

收藏
arXiv2019-05-29 更新2024-07-25 收录
下载链接:
https://github.com/PolyAI-LDN/conversational-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为‘A Repository of Conversational Datasets’,由英国伦敦的PolyAI有限公司创建,包含数百亿条对话示例。数据集内容丰富,包括Reddit、OpenSubtitles和AmazonQA等多个来源,总计超过7亿条有效的上下文-响应对。创建过程中,研究人员利用Apache Beam和Google Cloud Dataflow进行数据处理,确保数据的高效生成和处理。该数据集主要应用于自然语言处理领域,特别是对话系统的开发和评估,旨在解决对话模型训练和评估的标准化问题。
提供机构:
PolyAI有限公司,伦敦,英国
创建时间:
2019-04-13
原始信息汇总

对话数据集概述

数据集内容

本仓库提供了一系列用于训练和评估对话响应模型的可重复数据集,包括:

  • Reddit:包含37亿条评论,结构化为线程对话。
  • OpenSubtitles:包含超过4亿条电影和电视字幕的台词,提供英语和其他语言版本。
  • Amazon QA:包含超过360万条关于亚马逊产品的问答对。

数据集详情

每个数据集都有其独立的目录,包含数据流脚本、运行说明和单元测试。以下是各数据集的训练集和测试集大小:

数据集 时间范围 训练集大小 测试集大小
Reddit 2015 - 2019 6.54亿 7200万
OpenSubtitles 英语(其他语言可用) 2.86亿 3300万
Amazon QA - 300万 30万

这些数据集大小是在过滤和其他处理后的结果。例如,Reddit数据集基于37亿条原始评论,但经过脚本过滤后,包含7.26亿个示例。

数据集格式

数据集以以下两种格式存储:

  • JSON文本文件:每行一个示例。
  • Tensorflow记录文件:包含序列化的tensorflow示例协议缓冲区。

每个示例包含一个对话上下文和一个相应的响应,以及一些额外的上下文特征。例如:

javascript { context/1: "Hello, how are you?", context/0: "I am fine. And you?", context: "Great. What do you think of the weather?", response: "It doesnt feel like February." }

数据集创建

数据集使用Apache Beam脚本创建,并在Google Dataflow上运行,以跨多台工作机并行处理数据。

评估指标

推荐使用1-of-100排名准确度作为评估指标,这是一种Recall@k指标,表示在100个候选响应中,正确响应是否位于排名第一的位置。

引用

在使用这些数据集时,请引用以下论文:

bibtex @inproceedings{Henderson2019, author = {Matthew Henderson and Pawe{l} Budzianowski and I{~{n}}igo Casanueva and Sam Coope and Daniela Gerz and Girish Kumar and Nikola Mrk{v{s}}ic and Georgios Spithourakis and Pei-Hao Su and Ivan Vulic and Tsung-Hsien Wen}, title = {A Repository of Conversational Datasets}, year = {2019}, month = {jul}, note = {Data available at github.com/PolyAI-LDN/conversational-datasets}, url = {https://arxiv.org/abs/1904.06472}, booktitle = {Proceedings of the Workshop on {NLP} for Conversational {AI}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作