EuskañolDS

Name: EuskañolDS
Creator: HiTZ中心 - 巴斯克大学UPV/EHU
Published: 2025-02-05 22:04:42
License: 暂无描述

arXiv2025-02-05 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.03188v1

下载链接

链接失效反馈

官方服务：

资源简介：

EuskañolDS是一个包含巴斯克语和西班牙语代码转换实例的语料库，由HiTZ中心 - 巴斯克大学UPV/EHU创建。该数据集由来自议会记录和社交媒体推文的实例组成，经过自动分类和人工筛选，分为银牌集和金牌集两个版本。它收集了各种主题和不同风格的言语，适用于自然语言处理任务，如语言识别或立场检测，并为巴斯克-西班牙语代码转换的理论研究提供了资源。

EuskañolDS is a corpus of Basque-Spanish code-switching instances, developed by the HiTZ Center at the University of the Basque Country (UPV/EHU). This dataset comprises instances collected from parliamentary proceedings and social media tweets, which have undergone automatic classification and manual screening, and is split into two versions: the Silver Set and the Gold Set. It covers speech across diverse topics and stylistic formats, suitable for natural language processing tasks including language identification and stance detection, and serves as a dedicated resource for theoretical research on Basque-Spanish code-switching.

提供机构：

HiTZ中心 - 巴斯克大学UPV/EHU

创建时间：

2025-02-05

搜集汇总

数据集介绍

构建方式

EuskañolDS数据集的构建采用了一种半监督方法，首先利用FastText语言识别模型自动识别出潜在的代码转换文本，然后再通过人工验证的方式筛选出可靠的代码转换实例，最终形成了包含20008个实例的数据集。数据来源于议会转录和社交媒体推文，涵盖了不同的话题和语言风格，包括正式与 informal的用语以及口语与书面语。

特点

该数据集的特点在于：一是涵盖了巴斯克语和西班牙语两种不同语系的语言的代码转换现象；二是通过自动和人工两种方式进行了筛选，形成了银牌集和金牌集两种版本；三是实例类型丰富，包括句间代码转换、句内代码转换和标志性代码转换等。

使用方法

使用该数据集时，可以直接利用银牌集进行模型训练和评估，也可以使用金牌集进行更为严格的模型测试。此外，该数据集还可以用于研究巴斯克语和西班牙语之间的代码转换特征，或者用于自然语言处理任务的数据集开发，如语言标记识别或立场检测等。

背景与挑战

背景概述

EuskañolDS数据集是一项针对巴斯克语和西班牙语代码转换现象的自然来源语料库，由HiTZ中心-ixa,巴斯克大学UPV/EHU的研究人员Maite Heredia, Jeremy Barnes和Aitor Soroa等于2025年提出。该数据集的构建旨在解决自然语言处理中代码转换现象的挑战，尤其是在巴斯克语和西班牙语这两种语言接触的环境中，代码转换在正式和非正式的交流中频繁出现。EuskañolDS的提出，为分析这一现象以及支持开发和理解代码转换语言模型提供了宝贵的资源。

当前挑战

在构建EuskañolDS数据集的过程中，研究人员面临了多项挑战。首先，巴斯克语作为一种低资源语言，相关的代码转换研究较少，导致可用于分析和评估模型的资源几乎不存在。其次，数据集的构建采用了半监督方法，需要依赖语言识别模型对现有语料库进行筛选，并对结果进行人工验证，这一过程既复杂又耗时。此外，数据集中代码转换实例的标注和分类也具有挑战性，需要区分代码转换和其他语言现象，如借词。EuskañolDS数据集的创建对于推动巴斯克语和西班牙语代码转换的研究具有重要意义，但仍需进一步的工作来完善数据和模型。

常用场景

经典使用场景

EuskañolDS数据集的使用主要集中在自然语言处理领域，特别是在处理语言混合现象，如代码转换（Code-switching）的研究中。该数据集的一个典型应用场景是对巴斯克语和西班牙语之间的代码转换现象进行深入分析，包括类型学分类、语法特征分析等，从而为构建和评估能够理解并生成代码转换语言的模型提供支持。

衍生相关工作

基于EuskañolDS数据集的研究已经衍生出一系列相关工作，包括对巴斯克语和西班牙语代码转换的更深入的类型学研究、构建专门针对代码转换的语言模型、以及开发新的语言处理算法等。这些工作进一步扩展了我们对语言混合现象的理解，并促进了相关技术的进步。

数据集最近研究