CABNC Corpus

github2020-06-28 更新2024-05-31 收录

下载链接：

https://github.com/NathanDuran/CABNC-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CABNC是一个对话分析重转录的自然对话子语料库，源自英国国家语料库，包含约4.2百万字，分布在1436个独立对话中。

CABNC is a sub-corpus of natural conversations derived from the British National Corpus, specifically designed for dialogue analysis and re-transcription. It comprises approximately 4.2 million words, distributed across 1,436 individual dialogues.

创建时间：

2019-07-10

原始信息汇总

数据集概述

数据集名称

CABNC-Corpus

数据集来源

CABNC Corpus，源自TalkBank的British National Corpus子集。

数据集内容

包含约4.2百万字，分布在1436个自然对话中。

数据处理工具

cabnc_to_json.py: 将原始对话从.cha格式转换为.json文件，每个对话集（如KB0, KB1等）输出为单独的.json文件，以便于使用Conversation Analysis Modelling Schema进行对话标注。
cabnc_to_text.py: 将原始对话转换为纯文本文件，每行一个话语，可通过设置utterance_only标志去除说话者标签。
cabnc_utilities.py: 包含用于加载、保存和处理数据的辅助函数。

数据格式

原始转录中的所有不流畅和标注字符（如|, ◉, =, @）已被移除。
元数据头和话语时间戳（标记为□）也被移除。
标记为0的沉默或无转录话语已被移除。
原始转录中的缩写词（如Ill, Havent等）已被合并以形成原始缩写，以保持语法正确性。
某些被屏蔽的词（如脏话或名字）已被替换为*<unk>*标记。

示例格式

文本格式: 例如 "PS0X8|But they said wet and windy but that wasnt there was it."
JSON格式: 提供了一个JSON格式的示例，用于说明数据集的结构和内容。

版权与许可

原始作者为Saul Albert, Laura E. de Ruiter, 和 J.P. de Ruiter (2015)。
代码根据GNU General Public License分发。
数据集根据Creative Commons Attribution 3.0 Unported License许可。

搜集汇总

数据集介绍

构建方式

CABNC语料库的构建基于英国国家语料库（BNC）中的自然对话子集，经过对话分析的重新转录，涵盖了约420万词汇和1436个独立对话。原始转录文件采用.cha格式，通过专用脚本转换为更适用于自然语言处理（NLP）和计算建模任务的机器可读格式，如纯文本或JSON。转换过程中，去除了不流利标记、注释字符以及元数据头和时间戳，同时对缩写词进行了合并处理，以保持语法的正确性。

使用方法

CABNC语料库的使用方法灵活多样，研究人员可通过提供的脚本将原始.cha格式转录文件转换为纯文本或JSON格式。纯文本格式以每行一个话语的形式呈现，适合快速浏览和初步分析；JSON格式则提供了更结构化的数据表示，便于标注和建模任务。此外，脚本支持自定义选项，如去除说话者标签或保留特定标记，以满足不同研究需求。语料库的使用需遵循Creative Commons Attribution 3.0许可协议，确保对原始作者的适当引用。

背景与挑战

背景概述

CABNC语料库是基于英国国家语料库（BNC）的一个子集，经过会话分析重新转录而成，旨在为自然语言处理和计算建模任务提供更易于机器处理的格式。该语料库由Saul Albert、Laura E. de Ruiter和J.P. de Ruiter于2015年创建，包含约420万字的1436个独立对话。其核心研究问题在于如何通过去除不流利标记和其他注释字符，将原始转录文本转化为适合自然语言处理任务的格式。CABNC语料库的发布为会话分析、对话系统开发以及语言学领域的研究提供了重要的数据支持，推动了相关领域的技术进步。

当前挑战

CABNC语料库在构建过程中面临多重挑战。首先，原始转录文本中包含了大量不流利标记、注释字符和时间戳，这些信息的去除需要精细的处理，以确保数据的准确性和一致性。其次，原始转录中的缩写词被拆分为独立标记，需重新合并以保持语法正确性，这对数据处理提出了较高要求。此外，部分敏感词汇如脏话或人名被替换为占位符，如何在保留语义的同时处理这些标记也是一个技术难点。最后，将原始数据转换为机器可读的JSON或纯文本格式，需要设计高效的处理工具，以确保数据的可用性和可扩展性。

常用场景

经典使用场景

CABNC Corpus作为自然语言处理领域的重要资源，广泛应用于对话系统的开发与优化。其经典使用场景包括对话生成模型的训练与评估，特别是针对自然对话的流畅性和连贯性进行建模。通过将原始对话转录为机器可读的JSON或纯文本格式，研究人员能够更高效地处理和分析大规模对话数据，从而提升对话系统的性能。

解决学术问题

CABNC Corpus解决了自然语言处理中对话建模的若干关键问题。首先，它提供了高质量的对话数据，消除了不流畅和注释字符，使得数据更适合用于机器学习和深度学习任务。其次，通过重新转录和格式化，该数据集为对话分析建模提供了标准化框架，支持对话行为标注和语义槽填充等任务，推动了对话系统研究的深入发展。

实际应用

在实际应用中，CABNC Corpus被广泛用于智能客服、虚拟助手和社交机器人等领域的开发。其高质量的对话数据能够帮助系统更好地理解用户意图，生成自然流畅的回复。此外，该数据集还被用于多语言对话系统的跨语言研究，为全球化应用场景提供了数据支持。

数据集最近研究