conversational-datasets
收藏github2019-05-03 更新2024-05-31 收录
下载链接:
https://github.com/ssalvatierra777/conversational-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含用于对话响应选择的大型数据集集合,包括Reddit、OpenSubtitles和Amazon QA等数据集。这些数据集用于训练和评估对话响应模型,支持机器学习方法在对话AI领域的应用。
This is a large-scale dataset collection for dialogue response selection, including datasets such as Reddit, OpenSubtitles, and Amazon QA. These datasets are utilized for training and evaluating dialogue response models, and facilitate the application of machine learning methods in the field of conversational AI.
创建时间:
2019-05-03
原始信息汇总
数据集概述
数据集名称
- 名称: conversational-datasets
- 描述: 这是一个用于对话响应选择的大型数据集集合,包含多个子数据集,用于训练和评估对话模型。
包含的子数据集
| 子数据集名称 | 描述 | 训练集大小 | 测试集大小 |
|---|---|---|---|
| 2015 - 2019的Reddit评论,结构化为线程对话 | 654 million | 72 million | |
| OpenSubtitles | 来自电影和电视的字幕,提供英语及其他语言版本 | 286 million | 33 million |
| Amazon QA | 亚马逊产品相关的问题-回答对 | 3 million | 0.3 million |
数据集格式
- 存储格式: 使用TensorFlow记录文件存储,包含序列化的TensorFlow示例协议缓冲区。
- 数据结构: 每个示例包含对话上下文和相应的响应,以及额外的上下文特征。
数据集生成
- 生成方式: 使用Apache Beam管道脚本,通过Google Dataflow进行并行数据处理。
- 数据处理: 提供脚本和指令以自行生成数据,允许查看和修改预处理和过滤过程。
评估指标
- 推荐指标: 1-of-100排名准确度,一种Recall@k指标,用于评估模型在100个候选响应中正确排名的能力。
引用信息
- 引用论文: A Repository of Conversational Datasets
- BibTeX引用: bibtex @Article{Henderson2019, author = {Matthew Henderson and Pawe{l} Budzianowski and I{~{n}}igo Casanueva and Sam Coope and Daniela Gerz and Girish Kumar and Nikola Mrk{v{s}}ic and Georgios Spithourakis and Pei-Hao Su and Ivan Vulic and Tsung-Hsien Wen}, title = {A Repository of Conversational Datasets}, year = {2019}, month = {apr}, note = {Data available at github.com/PolyAI-LDN/conversational-datasets}, journal = {CoRR}, volume = {abs/1904.06472}, url = {https://arxiv.org/abs/1904.06472}, }
搜集汇总
数据集介绍

构建方式
该数据集通过提供脚本和说明,使用户能够自行生成数据,确保了数据预处理和过滤的可视化及可操作性。数据集的构建基于大规模的原始数据,如Reddit的3.7亿条评论,经过筛选和结构化处理后,形成了适用于会话响应训练和评估的格式。
特点
conversational-datasets集合了大规模的会话数据集,包括Reddit、OpenSubtitles和Amazon QA等。这些数据集经过精心筛选和格式化,支持标准的数据集划分,确保了评估的再现性。数据以TensorFlow记录文件的形式存储,包含会话上下文和对应的响应,支持额外的上下文信息,有助于提升模型对会话上下文的理解。
使用方法
使用该数据集,用户首先需要根据提供的说明和脚本在Python 2.7环境中生成数据集。数据集生成后,用户可以通过TensorFlow库中的函数读取数据,进行模型训练和评估。此外,该数据集还提供了基准测试结果,以及计算1-of-100排名准确度的方法,方便用户对模型性能进行量化评估。
背景与挑战
背景概述
conversational-datasets数据集是由PolyAI团队创建的大型会话响应选择数据集的集合。该数据集旨在为会话响应模型提供可复现的训练和评估工具,创建于2019年,主要研究人员来自于PolyAI公司。该数据集的核心研究问题是提升机器学习模型在对话系统中的响应选择能力,对自然语言处理领域,尤其是在对话系统的研究领域产生了重要影响。
当前挑战
在构建过程中,该数据集面临的挑战包括如何处理和过滤大量的原始数据,以确保数据质量,并生成标准化的训练和测试集。此外,数据集创建者还面临了如何平衡数据集的多样性和代表性的挑战。在研究领域,该数据集所解决的领域问题是提升对话系统的响应选择准确性,挑战在于如何设计有效的模型来处理多轮对话上下文,并准确预测最合适的响应。
常用场景
经典使用场景
conversational-datasets数据集广泛用于会话响应选择模型的训练与评估。其经典使用场景在于,研究人员和开发者可以利用这些大规模的会话数据集,对机器学习模型进行预训练,随后将模型适应于特定领域的对话任务。例如,通过在Reddit、OpenSubtitles和Amazon QA等数据集上训练,模型能够学习到丰富的语言表达和上下文信息处理能力,进而提高在特定对话系统中的表现。
解决学术问题
该数据集解决了学术研究中对于高质量会话数据的需求问题。在自然语言处理领域,尤其是在对话系统中,高质量的数据集对于模型的性能至关重要。conversational-datasets提供了经过筛选和处理的标准数据集,有助于研究者在统一的评价标准下开展模型对比研究,促进了学术对话系统的进步。
衍生相关工作
基于该数据集,学术界和工业界衍生出了众多经典工作。例如,多项研究采用了1-of-100排名准确度作为评价指标,以衡量模型在会话响应选择任务中的性能。此外,还有研究通过改进数据集处理流程、提出新的模型结构和基准测试,进一步推动了对话系统的技术发展。
以上内容由遇见数据集搜集并总结生成



