A Repository of Conversational Datasets
收藏对话数据集概述
数据集内容
本仓库提供了一系列用于训练和评估对话响应模型的可重复数据集,包括:
- Reddit:包含37亿条评论,结构化为线程对话。
- OpenSubtitles:包含超过4亿条电影和电视字幕的台词,提供英语和其他语言版本。
- Amazon QA:包含超过360万条关于亚马逊产品的问答对。
数据集详情
每个数据集都有其独立的目录,包含数据流脚本、运行说明和单元测试。以下是各数据集的训练集和测试集大小:
| 数据集 | 时间范围 | 训练集大小 | 测试集大小 |
|---|---|---|---|
| 2015 - 2019 | 6.54亿 | 7200万 | |
| OpenSubtitles | 英语(其他语言可用) | 2.86亿 | 3300万 |
| Amazon QA | - | 300万 | 30万 |
这些数据集大小是在过滤和其他处理后的结果。例如,Reddit数据集基于37亿条原始评论,但经过脚本过滤后,包含7.26亿个示例。
数据集格式
数据集以以下两种格式存储:
- JSON文本文件:每行一个示例。
- Tensorflow记录文件:包含序列化的tensorflow示例协议缓冲区。
每个示例包含一个对话上下文和一个相应的响应,以及一些额外的上下文特征。例如:
javascript { context/1: "Hello, how are you?", context/0: "I am fine. And you?", context: "Great. What do you think of the weather?", response: "It doesnt feel like February." }
数据集创建
数据集使用Apache Beam脚本创建,并在Google Dataflow上运行,以跨多台工作机并行处理数据。
评估指标
推荐使用1-of-100排名准确度作为评估指标,这是一种Recall@k指标,表示在100个候选响应中,正确响应是否位于排名第一的位置。
引用
在使用这些数据集时,请引用以下论文:
bibtex @inproceedings{Henderson2019, author = {Matthew Henderson and Pawe{l} Budzianowski and I{~{n}}igo Casanueva and Sam Coope and Daniela Gerz and Girish Kumar and Nikola Mrk{v{s}}ic and Georgios Spithourakis and Pei-Hao Su and Ivan Vulic and Tsung-Hsien Wen}, title = {A Repository of Conversational Datasets}, year = {2019}, month = {jul}, note = {Data available at github.com/PolyAI-LDN/conversational-datasets}, url = {https://arxiv.org/abs/1904.06472}, booktitle = {Proceedings of the Workshop on {NLP} for Conversational {AI}}, }



