ES-OC_Parallel_Corpus
收藏ES-OC Parallel Corpus 数据集
数据集描述
数据集概述
ES-OC Parallel Corpus 是一个西班牙语-阿拉尼斯语平行语料库,旨在支持西班牙语境中资源匮乏语言(如阿拉尼斯语)在自然语言处理任务中的应用,特别是机器翻译。
支持的任务和排行榜
该数据集可用于训练阿拉尼斯语和西班牙语之间的双语机器翻译模型,以及多语言机器翻译模型。
语言
数据集中的句子包括西班牙语 (ES) 和阿拉尼斯语 (OC)。阿拉尼斯语是奥克西坦语的一种方言,主要在西班牙加泰罗尼亚的瓦尔达兰地区使用,是该地区的三种官方语言之一,另外两种是加泰罗尼亚语和西班牙语。
数据集结构
数据实例
提供两个单独的 txt 文件:
- es-arn_corpus.es
- es-arn_corpus.arn
此外,数据集还以 parquet 格式提供:es-arn_corpus.parquet。
parquet 文件包含两列平行文本,分别来自两个原始文本文件。每行代表数据集中两种语言的平行句子对。
数据字段
[N/A]
数据分割
数据集包含一个单一分割:train。
数据集创建
数据集创建理由
该数据集旨在促进西班牙语与资源匮乏语言(特别是阿拉尼斯语)之间的机器翻译发展。
源数据
初始数据收集和规范化
该数据集是巴塞罗那超级计算中心语言技术单元参与 WMT24 共享任务:西班牙低资源语言翻译 的一部分。语料库是经过详细清洗和预处理的,具体细节在论文 "Training and Fine-Tuning NMT Models for Low-Resource Languages using Apertium-Based Synthetic Corpora" 中有详细描述(链接将在发表后添加)。由于没有基于对齐分数的过滤,数据集可能包含对齐不良的句子。
该数据集主要基于规则的翻译器 Apertium 生成的合成数据。它包含从阿拉尼斯语 PILAR 单语数据集生成的合成西班牙语,以及通过翻译西班牙语-阿拉尼斯语对中的西班牙语部分从 OPUS 生成的合成阿拉尼斯语。此外,它还包含从共享任务组织者提供的 Diccionari_der_Aranés.pdf 文档中提取的单语阿拉尼斯语文本翻译成的合成西班牙语。
源语言生产者
注释
注释过程
数据集不包含任何注释。
注释者
[N/A]
个人和敏感信息
由于该数据集部分源自可能包含抓取数据的前置数据集,并且未进行特定的匿名化处理,因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。
使用数据集的注意事项
数据集的社会影响
通过提供这一资源,我们旨在促进阿拉尼斯语在 NLP 任务中的应用,从而提高阿拉尼斯语的可访问性和可见性。
偏见讨论
未对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。
其他已知限制
该数据集包含一般领域的数据。在更具体的领域(如生物医学、法律等)中应用此数据集的用途有限。
附加信息
数据集策展人
巴塞罗那超级计算中心的语言技术单元 (langtech@bsc.es)。
许可信息
该工作根据 Attribution-NonCommercial-ShareAlike 4.0 International 许可发布,由于部分原始数据的许可限制。
引用信息
[N/A]
贡献
[N/A]




