five

CABNC Corpus

收藏
github2020-06-28 更新2024-05-31 收录
下载链接:
https://github.com/NathanDuran/CABNC-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
CABNC是一个对话分析重转录的自然对话子语料库,源自英国国家语料库,包含约4.2百万字,分布在1436个独立对话中。

CABNC is a sub-corpus of natural conversations derived from the British National Corpus, specifically designed for dialogue analysis and re-transcription. It comprises approximately 4.2 million words, distributed across 1,436 individual dialogues.
创建时间:
2019-07-10
原始信息汇总

数据集概述

数据集名称

CABNC-Corpus

数据集来源

CABNC Corpus,源自TalkBank的British National Corpus子集。

数据集内容

包含约4.2百万字,分布在1436个自然对话中。

数据处理工具

  • cabnc_to_json.py: 将原始对话从.cha格式转换为.json文件,每个对话集(如KB0, KB1等)输出为单独的.json文件,以便于使用Conversation Analysis Modelling Schema进行对话标注。
  • cabnc_to_text.py: 将原始对话转换为纯文本文件,每行一个话语,可通过设置utterance_only标志去除说话者标签。
  • cabnc_utilities.py: 包含用于加载、保存和处理数据的辅助函数。

数据格式

  • 原始转录中的所有不流畅和标注字符(如|, ◉, =, @)已被移除。
  • 元数据头和话语时间戳(标记为□)也被移除。
  • 标记为0的沉默或无转录话语已被移除。
  • 原始转录中的缩写词(如Ill, Havent等)已被合并以形成原始缩写,以保持语法正确性。
  • 某些被屏蔽的词(如脏话或名字)已被替换为*<unk>*标记。

示例格式

  • 文本格式: 例如 "PS0X8|But they said wet and windy but that wasnt there was it."
  • JSON格式: 提供了一个JSON格式的示例,用于说明数据集的结构和内容。

版权与许可

  • 原始作者为Saul Albert, Laura E. de Ruiter, 和 J.P. de Ruiter (2015)。
  • 代码根据GNU General Public License分发。
  • 数据集根据Creative Commons Attribution 3.0 Unported License许可。
搜集汇总
数据集介绍
main_image_url
构建方式
CABNC语料库的构建基于英国国家语料库(BNC)中的自然对话子集,经过对话分析的重新转录,涵盖了约420万词汇和1436个独立对话。原始转录文件采用.cha格式,通过专用脚本转换为更适用于自然语言处理(NLP)和计算建模任务的机器可读格式,如纯文本或JSON。转换过程中,去除了不流利标记、注释字符以及元数据头和时间戳,同时对缩写词进行了合并处理,以保持语法的正确性。
使用方法
CABNC语料库的使用方法灵活多样,研究人员可通过提供的脚本将原始.cha格式转录文件转换为纯文本或JSON格式。纯文本格式以每行一个话语的形式呈现,适合快速浏览和初步分析;JSON格式则提供了更结构化的数据表示,便于标注和建模任务。此外,脚本支持自定义选项,如去除说话者标签或保留特定标记,以满足不同研究需求。语料库的使用需遵循Creative Commons Attribution 3.0许可协议,确保对原始作者的适当引用。
背景与挑战
背景概述
CABNC语料库是基于英国国家语料库(BNC)的一个子集,经过会话分析重新转录而成,旨在为自然语言处理和计算建模任务提供更易于机器处理的格式。该语料库由Saul Albert、Laura E. de Ruiter和J.P. de Ruiter于2015年创建,包含约420万字的1436个独立对话。其核心研究问题在于如何通过去除不流利标记和其他注释字符,将原始转录文本转化为适合自然语言处理任务的格式。CABNC语料库的发布为会话分析、对话系统开发以及语言学领域的研究提供了重要的数据支持,推动了相关领域的技术进步。
当前挑战
CABNC语料库在构建过程中面临多重挑战。首先,原始转录文本中包含了大量不流利标记、注释字符和时间戳,这些信息的去除需要精细的处理,以确保数据的准确性和一致性。其次,原始转录中的缩写词被拆分为独立标记,需重新合并以保持语法正确性,这对数据处理提出了较高要求。此外,部分敏感词汇如脏话或人名被替换为占位符,如何在保留语义的同时处理这些标记也是一个技术难点。最后,将原始数据转换为机器可读的JSON或纯文本格式,需要设计高效的处理工具,以确保数据的可用性和可扩展性。
常用场景
经典使用场景
CABNC Corpus作为自然语言处理领域的重要资源,广泛应用于对话系统的开发与优化。其经典使用场景包括对话生成模型的训练与评估,特别是针对自然对话的流畅性和连贯性进行建模。通过将原始对话转录为机器可读的JSON或纯文本格式,研究人员能够更高效地处理和分析大规模对话数据,从而提升对话系统的性能。
解决学术问题
CABNC Corpus解决了自然语言处理中对话建模的若干关键问题。首先,它提供了高质量的对话数据,消除了不流畅和注释字符,使得数据更适合用于机器学习和深度学习任务。其次,通过重新转录和格式化,该数据集为对话分析建模提供了标准化框架,支持对话行为标注和语义槽填充等任务,推动了对话系统研究的深入发展。
实际应用
在实际应用中,CABNC Corpus被广泛用于智能客服、虚拟助手和社交机器人等领域的开发。其高质量的对话数据能够帮助系统更好地理解用户意图,生成自然流畅的回复。此外,该数据集还被用于多语言对话系统的跨语言研究,为全球化应用场景提供了数据支持。
数据集最近研究
最新研究方向
CABNC语料库作为自然语言处理领域的重要资源,近年来在对话分析和计算建模任务中展现出显著的应用潜力。该数据集通过对英国国家语料库中的自然对话进行重新转录,剔除了不流畅和注释字符,转化为更易于机器处理的JSON或纯文本格式。这一处理方式不仅提升了数据的可读性,还为对话行为标注和语义分析提供了坚实的基础。当前研究热点集中在利用CABNC语料库进行对话行为分类、情感分析以及多轮对话系统的训练与优化。此外,结合会话分析建模框架,研究者正在探索如何通过该数据集提升对话系统的上下文理解能力,从而推动智能对话技术的进一步发展。CABNC语料库的开放性和高质量标注为自然语言处理领域的研究者提供了宝贵的实验平台,具有重要的学术价值和实际应用意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作