Dialogue Datasets
收藏github2018-03-06 更新2024-05-31 收录
下载链接:
https://github.com/whanke/Dialogue-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个包含多个文本对话数据集的集合,包括BNC Corpus、Twitter对话数据集和电影剧本数据集等。
A collection of multiple text dialogue datasets, including the BNC Corpus, Twitter dialogue dataset, and movie script dataset, among others.
创建时间:
2018-03-02
原始信息汇总
数据集概述
数据集名称
- Dialogue Datasets
数据集内容
BNC Corpus
- BNCCorpus.txt: 包含英国国家语料库中转录的无脚本口语对话的纯文本子集。
- BNCSplitWordsCorpus.txt: 与BNCCorpus.txt相同,但使用特定方法将语料库中的一些单词分开,因为原始文本中有许多单词是连在一起的。
Twitter dialogue dataset
- TwitterConvCorpus.txt: 包含对话(2条或更多推文),每条推文单独一行,对话之间有三个空行,按对话长度排序。包含表情符号等。
- TwitterLowerAsciiCorpus.txt: 仅包含长度为4或以上的对话,转换为小写(因为大多数文本已经是小写),并移除了所有非ASCII字符。
Movie Corpus
- 包含一系列电影剧本,数据来源于此处。
数据集来源
- BNC Corpus: 通过解析原始XML转储自行制作。
- Twitter dialogue dataset: 通过解析推文及其回复制作。
- Movie Corpus: 数据来源于外部资源。
搜集汇总
数据集介绍

构建方式
Dialogue Datasets的构建主要基于对公开文本资源的整理与解析。具体而言,BNC语料库是对英国国家语料库中未经脚本记录的口语对话的子集进行转录,并以纯文本形式呈现。Twitter对话数据集则通过对推文及其回复的解析制作而成,每个对话包含两条或以上的推文。电影剧本语料库则是收集自网络公开资源的电影剧本集合。
特点
该数据集具备多样化的特点,涵盖了日常口语对话、社交媒体互动以及电影剧本等多种类型的对话文本。BNC语料库以未经脚本记录的口语对话为特色,Twitter对话数据集则展现了社交媒体中的自然对话模式。电影剧本语料库提供了丰富的剧情对话,适合进行文本分析和情感研究。
使用方法
用户可以根据具体研究需求,下载并使用这些数据集。数据集以纯文本形式提供,便于导入至文本分析工具或自然语言处理框架中。对于BNC语料库和Twitter对话数据集,用户需注意其版权声明,并按照规定合理使用。电影剧本语料库则可从指定的GitHub链接获取,用户可直接下载使用。
背景与挑战
背景概述
Dialogue Datasets是一系列文本数据集的集合,由研究者自主搜集整理。该数据集包含了英国国家语料库(BNC Corpus)的一个子集,即未经脚本化的口语对话转录文本,以及通过解析推文及其回复生成的Twitter对话数据集,和从网络获取的电影剧本集合。这些数据集的创建旨在为自然语言处理、对话系统以及文本分析等领域的研究提供基础资源。自发布以来,Dialogue Datasets对推动相关领域的研究发展起到了积极作用,尤其是在口语对话处理和理解方面。
当前挑战
在构建Dialogue Datasets的过程中,研究人员面临了多项挑战。首先,对于BNC Corpus的子集,挑战在于如何从原始的XML格式中有效地解析和转录文本,同时处理文本中出现的无空格单词粘连问题。其次,在构建Twitter对话数据集时,挑战包括如何准确识别和提取推文中的对话,以及处理推文中的特殊字符和表情符号。此外,对于电影剧本的收集,挑战在于确保数据的多样性和质量,同时遵守版权和授权的相关规定。在研究领域,Dialogue Datasets所面临的挑战还包括如何提高数据集的标注质量,以及如何使其更加全面地覆盖不同类型的对话场景。
常用场景
经典使用场景
在自然语言处理领域,Dialogue Datasets数据集被广泛应用于对话系统的构建与评估。该数据集包含了英国国家语料库的口语对话子集、Twitter对话数据集以及电影剧本数据集,为研究者提供了丰富的对话文本资源。
解决学术问题
该数据集解决了对话生成模型训练中的数据不足问题,有助于提高模型的泛化能力和对话质量。同时,它也便于研究者进行对话系统的性能评估,推动了自然语言处理技术的进步。
衍生相关工作
基于Dialogue Datasets数据集,研究者们衍生出了一系列相关工作,如对话生成模型、情感分析、对话系统评估指标等,进一步推动了自然语言处理领域的研究与发展。
以上内容由遇见数据集搜集并总结生成



