COALAS
收藏github2022-05-16 更新2024-05-31 收录
下载链接:
https://github.com/lirondos/coalas
下载链接
链接失效反馈官方服务:
资源简介:
COALAS是一个包含西班牙新闻稿中未同化的词汇借用的语料库。该语料库包含370,000个标记,涵盖了多种欧洲西班牙语的书面媒体。测试集设计得尽可能困难,覆盖了训练集中未见的来源和日期,包含大量未见词汇(测试集中92%的借用词汇是未见词汇),并且借用词汇密度很高(每1,000个标记中有20个借用词汇)。
COALAS is a corpus containing unassimilated lexical borrowings in Spanish press releases. The corpus comprises 370,000 tokens, covering a variety of written media in European Spanish. The test set is designed to be as challenging as possible, encompassing sources and dates not seen in the training set, and includes a large number of unseen words (92% of the borrowed words in the test set are unseen). Additionally, the density of borrowed words is high, with 20 borrowed words per 1,000 tokens.
创建时间:
2022-03-15
原始信息汇总
COALAS 数据集概述
数据集描述
COALAS(Corpus of AngLicisms in the SpAnish PresS)是一个包含西班牙新闻稿件的语料库,特别标注了未同化的词汇借用。该数据集包含370,000个标记,涵盖了多种欧洲西班牙语的书面媒体。
数据集分割
| 集合 | 标记数 | ENG | OTHER | 唯一项 |
|---|---|---|---|---|
| 训练集 | 231,126 | 1,493 | 28 | 380 |
| 开发集 | 82,578 | 306 | 49 | 316 |
| 测试集 | 58,997 | 1,239 | 46 | 987 |
| 总计 | 372,701 | 3,038 | 123 | 1,683 |
标注说明
数据集的标注考虑了两种标签:
ENG:用于英语词汇借用(如 smartphone, online, podcast)OTHER:用于来自其他语言的词汇借用(如 boutique, anime, umami)
模型使用BIO编码来处理多标记借用。
可用模型
数据集提供了两种公开可用的模型,用于自动检测英语借用词汇:
- Flair BiLSTM模型,使用代码切换嵌入和子词嵌入,基于Flair库(F1分数为85.76)
- 基于多语言BERT的模型,针对英语借用词汇检测任务进行了微调,基于Transformers库(F1分数为83.55)
搜集汇总
数据集介绍

构建方式
COALAS数据集的构建基于西班牙新闻媒体中的未同化词汇借用现象,涵盖了欧洲西班牙语的多种书面媒体。该数据集包含370,000个标记,分为训练集、开发集和测试集。测试集设计极具挑战性,涵盖了训练集中未见的来源和日期,包含大量未见词(OOV),且借用密度较高。数据标注采用BIO编码,区分英语借用词(ENG)和其他语言借用词(OTHER)。
特点
COALAS数据集的特点在于其丰富性和多样性。它不仅规模较大,且借用密度高,测试集中92%的借用词为未见词,借用密度达到每1,000个标记中有20个借用词。此外,数据集涵盖了多种主题和来源,确保了其广泛的应用场景。数据集的标注精细,区分了英语借用词和其他语言借用词,为研究提供了丰富的信息。
使用方法
COALAS数据集的使用方法主要包括两个方面:一是用于训练和评估自动检测借用词的模型,如基于Flair BiLSTM和multilingual BERT的模型;二是用于研究西班牙语中的词汇借用现象。用户可以通过HuggingFace模型库获取预训练模型,并利用数据集进行模型微调和性能评估。此外,数据集还可用于错误分析和模型改进,为相关研究提供数据支持。
背景与挑战
背景概述
COALAS数据集由Elena Álvarez-Mellado和Constantine Lignos于2022年创建,旨在为西班牙语新闻文本中的未同化外来词(尤其是英语借词)提供标注资源。该数据集包含37万词汇,涵盖了欧洲西班牙语的各种书面媒体形式。其核心研究问题在于如何有效识别和标注西班牙语文本中的外来词汇,特别是那些尚未被西班牙语完全吸收的词汇。COALAS的发布为自然语言处理领域中的借词识别任务提供了重要的数据支持,推动了相关模型的研究与开发。该数据集在2022年ACL会议上首次亮相,并迅速成为该领域的重要参考资源。
当前挑战
COALAS数据集在构建和应用过程中面临多重挑战。首先,借词识别任务本身具有较高的复杂性,尤其是未同化借词的识别,因其形态和语义尚未完全融入目标语言,导致模型难以准确捕捉其边界和类别。其次,数据集的测试集设计极具挑战性,包含了大量未见过的词汇(OOV)和高密度的借词分布,这对模型的泛化能力提出了更高要求。此外,数据标注过程中需处理多语言混杂的文本,增加了标注的一致性和准确性难度。最后,尽管已有基于BiLSTM和BERT的模型在该数据集上取得了较高性能,但如何进一步提升模型对低资源语言和复杂借词模式的识别能力,仍是未来研究的重点方向。
常用场景
经典使用场景
COALAS数据集在自然语言处理领域中被广泛用于研究西班牙语新闻文本中的未同化外来词识别。该数据集通过提供大量标注的西班牙语新闻文本,帮助研究人员开发和评估自动检测外来词的模型。特别是在处理高密度外来词和未见过的词汇时,COALAS提供了极具挑战性的测试集,使得模型能够在复杂环境下进行性能评估。
实际应用
在实际应用中,COALAS数据集被用于开发多语言文本处理工具,特别是在新闻媒体和社交媒体分析中。这些工具能够自动识别和分类西班牙语文本中的外来词,帮助语言学家和内容创作者更好地理解文本的语言特征。此外,该数据集还被用于跨语言信息检索和机器翻译系统的优化,提升了多语言环境下的文本处理能力。
衍生相关工作
基于COALAS数据集,研究人员开发了多种经典模型,如Flair BiLSTM模型和多语言BERT模型。这些模型在自动检测西班牙语外来词任务中表现出色,推动了相关领域的研究进展。此外,COALAS数据集还激发了更多关于跨语言词汇借用和语言接触的研究,为语言学和计算语言学的交叉研究提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成



