five

EuskañolDS

收藏
arXiv2025-02-05 更新2025-02-26 收录
下载链接:
http://arxiv.org/abs/2502.03188v1
下载链接
链接失效反馈
官方服务:
资源简介:
EuskañolDS是一个包含巴斯克语和西班牙语代码转换实例的语料库,由HiTZ中心 - 巴斯克大学UPV/EHU创建。该数据集由来自议会记录和社交媒体推文的实例组成,经过自动分类和人工筛选,分为银牌集和金牌集两个版本。它收集了各种主题和不同风格的言语,适用于自然语言处理任务,如语言识别或立场检测,并为巴斯克-西班牙语代码转换的理论研究提供了资源。

EuskañolDS is a corpus of Basque-Spanish code-switching instances, developed by the HiTZ Center at the University of the Basque Country (UPV/EHU). This dataset comprises instances collected from parliamentary proceedings and social media tweets, which have undergone automatic classification and manual screening, and is split into two versions: the Silver Set and the Gold Set. It covers speech across diverse topics and stylistic formats, suitable for natural language processing tasks including language identification and stance detection, and serves as a dedicated resource for theoretical research on Basque-Spanish code-switching.
提供机构:
HiTZ中心 - 巴斯克大学UPV/EHU
创建时间:
2025-02-05
搜集汇总
数据集介绍
main_image_url
构建方式
EuskañolDS数据集的构建采用了一种半监督方法,首先利用FastText语言识别模型自动识别出潜在的代码转换文本,然后再通过人工验证的方式筛选出可靠的代码转换实例,最终形成了包含20008个实例的数据集。数据来源于议会转录和社交媒体推文,涵盖了不同的话题和语言风格,包括正式与 informal的用语以及口语与书面语。
特点
该数据集的特点在于:一是涵盖了巴斯克语和西班牙语两种不同语系的语言的代码转换现象;二是通过自动和人工两种方式进行了筛选,形成了银牌集和金牌集两种版本;三是实例类型丰富,包括句间代码转换、句内代码转换和标志性代码转换等。
使用方法
使用该数据集时,可以直接利用银牌集进行模型训练和评估,也可以使用金牌集进行更为严格的模型测试。此外,该数据集还可以用于研究巴斯克语和西班牙语之间的代码转换特征,或者用于自然语言处理任务的数据集开发,如语言标记识别或立场检测等。
背景与挑战
背景概述
EuskañolDS数据集是一项针对巴斯克语和西班牙语代码转换现象的自然来源语料库,由HiTZ中心-ixa,巴斯克大学UPV/EHU的研究人员Maite Heredia, Jeremy Barnes和Aitor Soroa等于2025年提出。该数据集的构建旨在解决自然语言处理中代码转换现象的挑战,尤其是在巴斯克语和西班牙语这两种语言接触的环境中,代码转换在正式和非正式的交流中频繁出现。EuskañolDS的提出,为分析这一现象以及支持开发和理解代码转换语言模型提供了宝贵的资源。
当前挑战
在构建EuskañolDS数据集的过程中,研究人员面临了多项挑战。首先,巴斯克语作为一种低资源语言,相关的代码转换研究较少,导致可用于分析和评估模型的资源几乎不存在。其次,数据集的构建采用了半监督方法,需要依赖语言识别模型对现有语料库进行筛选,并对结果进行人工验证,这一过程既复杂又耗时。此外,数据集中代码转换实例的标注和分类也具有挑战性,需要区分代码转换和其他语言现象,如借词。EuskañolDS数据集的创建对于推动巴斯克语和西班牙语代码转换的研究具有重要意义,但仍需进一步的工作来完善数据和模型。
常用场景
经典使用场景
EuskañolDS数据集的使用主要集中在自然语言处理领域,特别是在处理语言混合现象,如代码转换(Code-switching)的研究中。该数据集的一个典型应用场景是对巴斯克语和西班牙语之间的代码转换现象进行深入分析,包括类型学分类、语法特征分析等,从而为构建和评估能够理解并生成代码转换语言的模型提供支持。
衍生相关工作
基于EuskañolDS数据集的研究已经衍生出一系列相关工作,包括对巴斯克语和西班牙语代码转换的更深入的类型学研究、构建专门针对代码转换的语言模型、以及开发新的语言处理算法等。这些工作进一步扩展了我们对语言混合现象的理解,并促进了相关技术的进步。
数据集最近研究
最新研究方向
EuskañolDS数据集的构建旨在解决自然语言处理中代码转换现象的研究需求,特别是针对巴斯克语和西班牙语这一语言对。该数据集通过半监督方法从现有语料库中筛选出代码转换实例,为理论研究和开发面向代码转换文本的NLP任务提供了基础资源。研究方向的亮点在于对巴斯克语和西班牙语代码转换特征的深入分析,以及该数据集在促进双向语言理解和生成模型发展方面的潜在应用。
相关研究论文
  • 1
    EuskañolDS: A Naturally Sourced Corpus for Basque-Spanish Code-SwitchingHiTZ中心 - 巴斯克大学UPV/EHU · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作