BaSCo-Corpus

github2022-04-27 更新2024-05-31 收录

下载链接：

https://github.com/Vicomtech/BaSCo-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

BaSCo-Corpus是首个包含Basque-Spanish code-switching标注语言资源的语料库。该语料库涵盖了Basque和Spanish语言在同一语句中的混合使用，这种现象在Basque Country的双语使用者中广泛存在，被称为Euskañol。该数据集是为了满足多语种对话系统研究中对Euskañol标注语言资源的需求而创建的。数据集包含1377个标注语句，每个样本在三个层级上进行标注：(i) NLU语义标签，考虑意图和实体，(ii) code-switching比例，(iii) 原始领域。

The BaSCo-Corpus is the first annotated linguistic resource corpus that includes Basque-Spanish code-switching. This corpus covers the mixed use of Basque and Spanish languages within the same sentence, a phenomenon widely observed among bilingual speakers in the Basque Country, known as Euskañol. The dataset was created to meet the demand for annotated linguistic resources in Euskañol for research in multilingual dialogue systems. It contains 1,377 annotated sentences, with each sample annotated at three levels: (i) NLU semantic labels, considering intent and entities, (ii) code-switching ratio, and (iii) original domain.

创建时间：

2022-04-27

原始信息汇总

数据集概述

数据集名称

BaSCo-Corpus

发布时间

2022年4月

数据集描述

BaSCo-Corpus是首个包含巴斯克-西班牙语码转换标注的语言资源语料库。该语料库涵盖了巴斯克语和西班牙语在同一语句中的混合使用，这种混合语言现象被称为Euskañol，广泛存在于巴斯克地区的双语使用者中。BaSCo-Corpus由1377条标注的语句组成，每个样本在三个层次上进行了标注：(i) NLU语义标签，包括意图和实体；(ii) 码转换比例；(iii) 原始领域。

数据采集与标注

数据采集阶段包括去除重复和筛选有效语句。有效语句需满足以下条件：(1) 符合任务目标，即语句中包含巴斯克语和西班牙语的混合；(2) 从语义角度看，其内容与其参考文本保持一致；(3) 听起来自然，不显人工。只有至少2/3的标注者认为有效的语句才会被纳入最终语料库并进行标注。

数据结构

每个标注的语句包含以下信息：参考文本、源语言、领域、意图、实体和码转换信息。例如，一个标注的语句可能包含意图标签、实体标签及其规范值、码转换文本及其语言比例。

许可证

本数据集资源根据Creative Commons Attribution-ShareAlike 3.0 Spain License授权。

下载链接

有效语句：链接
无效语句：链接

联系方式

magirre@vicomtech.org

搜集汇总

数据集介绍

构建方式

BaSCo-Corpus的构建过程始于对巴斯克语和西班牙语混合文本的收集与筛选。这些文本最初用于训练多语言任务导向型聊天机器人的自然语言理解模型。在数据整理阶段，研究人员通过去除重复项并依据特定准则筛选出符合Euskañol（巴斯克语与西班牙语混合语）语境的语料。每条语料需满足三个条件：语言混合性、语义一致性以及自然性。最终，只有经过至少三分之二标注者认可的语料才会被纳入语料库，并进行多层次标注。

特点

BaSCo-Corpus作为首个巴斯克语与西班牙语混合语（Euskañol）的标注语料库，具有显著的多层次标注特点。每条语料均从三个维度进行标注：自然语言理解（NLU）语义标签，包括意图和实体；语言混合比例，标注者根据直觉判断语料中巴斯克语与西班牙语的比例；以及语料来源领域，涵盖行政、交通、财政等特定领域。此外，语料库还包含1377条经过严格筛选的混合语语料，为多语言对话系统的研究提供了宝贵资源。

使用方法

BaSCo-Corpus的使用方法主要围绕其多层次标注展开。研究人员可通过语料库中的NLU语义标签分析混合语语料的意图和实体识别能力，或通过语言混合比例标签研究巴斯克语与西班牙语的混合模式。此外，语料库的领域标签为特定领域的多语言对话系统开发提供了数据支持。语料库以JSON格式提供，用户可直接下载并使用相关工具进行数据解析与分析。语料库的下载链接包括有效语料和无效语料两部分，便于用户根据需求选择使用。

背景与挑战

背景概述

BaSCo-Corpus是首个涵盖巴斯克语-西班牙语代码切换的语料库，由Vicomtech的研究团队于2022年4月发布。该语料库旨在满足巴斯克地区双语使用者在多语言对话系统等领域对巴斯克语-西班牙语混合语言（Euskañol）标注资源的需求。BaSCo-Corpus包含1377条标注语句，每条语句在三个层次上进行标注：自然语言理解（NLU）语义标签、代码切换比例以及领域来源。该语料库的创建基于巴斯克语和西班牙语双语任务导向聊天机器人的训练数据，涉及行政、财政和交通等领域，为多语言自然语言理解研究提供了重要资源。

当前挑战

BaSCo-Corpus的构建面临多重挑战。首先，代码切换现象的复杂性使得标注工作极具挑战性，尤其是在确定巴斯克语和西班牙语的比例时，标注者需依赖母语者的直觉而非简单的词汇或词素计数。其次，语料库的构建需确保语句的自然性和语义一致性，这要求严格的筛选和标注标准，例如仅当至少三分之二的标注者认为某语句有效时，才能将其纳入最终语料库。此外，由于语料库的领域多样性（如行政、交通等），标注过程中还需确保领域标签的准确性和一致性。这些挑战不仅反映了代码切换研究的复杂性，也为未来多语言自然语言理解研究提供了重要的参考。

常用场景

经典使用场景

BaSCo-Corpus数据集在自然语言处理领域，特别是在多语言对话系统的研究中，展现了其独特的价值。该数据集主要用于训练和评估能够处理巴斯克语和西班牙语混合（Euskañol）的对话系统模型。通过提供1377条经过三重标注的语料，包括语义标签、语言切换比例和领域标签，BaSCo-Corpus为研究人员提供了一个丰富的资源，以探索和理解在多语言环境中语言切换的复杂性和模式。

衍生相关工作

基于BaSCo-Corpus，研究人员已经开展了一系列相关研究，包括开发新的多语言NLU模型、探索语言切换对机器翻译的影响，以及分析双语使用者的语言偏好。这些研究不仅丰富了多语言处理的理论框架，也为实际应用提供了技术支持和数据基础。此外，该数据集还激发了更多关于巴斯克语和西班牙语混合使用的研究兴趣，促进了相关领域的学术交流和技术进步。

数据集最近研究