ES-OC_Parallel_Corpus

Name: ES-OC_Parallel_Corpus
Creator: Projecte Aina
Published: 2024-10-02 19:46:35
License: 暂无描述

Hugging Face2024-10-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/projecte-aina/ES-OC_Parallel_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ES-OC平行语料库是一个旨在支持西班牙语和阿拉尼斯语（一种在西班牙瓦尔达兰地区使用的奥克西坦语变体）之间机器翻译任务的数据集。该数据集包含西班牙语和阿拉尼斯语的平行句子，主要通过基于规则的翻译工具Apertium生成，包括从阿拉尼斯语的PILAR单语数据集生成的合成西班牙语，以及通过翻译OPUS中的西班牙语-阿拉尼斯语对生成的合成阿拉尼斯语。数据集以txt和parquet格式提供，每行parquet文件代表一对平行句子。该数据集旨在促进西班牙语和阿拉尼斯语之间的机器翻译发展，并作为WMT24共享任务的一部分，专注于低资源语言的翻译。

提供机构：

Projecte Aina

创建时间：

2024-10-02

原始信息汇总

ES-OC Parallel Corpus 数据集

数据集描述

数据集概述

ES-OC Parallel Corpus 是一个西班牙语-阿拉尼斯语平行语料库，旨在支持西班牙语境中资源匮乏语言（如阿拉尼斯语）在自然语言处理任务中的应用，特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练阿拉尼斯语和西班牙语之间的双语机器翻译模型，以及多语言机器翻译模型。

语言

数据集中的句子包括西班牙语 (ES) 和阿拉尼斯语 (OC)。阿拉尼斯语是奥克西坦语的一种方言，主要在西班牙加泰罗尼亚的瓦尔达兰地区使用，是该地区的三种官方语言之一，另外两种是加泰罗尼亚语和西班牙语。

数据集结构

数据实例

提供两个单独的 txt 文件：

es-arn_corpus.es
es-arn_corpus.arn

此外，数据集还以 parquet 格式提供：es-arn_corpus.parquet。

parquet 文件包含两列平行文本，分别来自两个原始文本文件。每行代表数据集中两种语言的平行句子对。

数据字段

[N/A]

数据分割

数据集包含一个单一分割：train。

数据集创建

数据集创建理由

该数据集旨在促进西班牙语与资源匮乏语言（特别是阿拉尼斯语）之间的机器翻译发展。

源数据

初始数据收集和规范化

该数据集是巴塞罗那超级计算中心语言技术单元参与 WMT24 共享任务：西班牙低资源语言翻译的一部分。语料库是经过详细清洗和预处理的，具体细节在论文 "Training and Fine-Tuning NMT Models for Low-Resource Languages using Apertium-Based Synthetic Corpora" 中有详细描述（链接将在发表后添加）。由于没有基于对齐分数的过滤，数据集可能包含对齐不良的句子。

该数据集主要基于规则的翻译器 Apertium 生成的合成数据。它包含从阿拉尼斯语 PILAR 单语数据集生成的合成西班牙语，以及通过翻译西班牙语-阿拉尼斯语对中的西班牙语部分从 OPUS 生成的合成阿拉尼斯语。此外，它还包含从共享任务组织者提供的 Diccionari_der_Aranés.pdf 文档中提取的单语阿拉尼斯语文本翻译成的合成西班牙语。

源语言生产者

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

由于该数据集部分源自可能包含抓取数据的前置数据集，并且未进行特定的匿名化处理，因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。

使用数据集的注意事项

数据集的社会影响

通过提供这一资源，我们旨在促进阿拉尼斯语在 NLP 任务中的应用，从而提高阿拉尼斯语的可访问性和可见性。

偏见讨论

未对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

该数据集包含一般领域的数据。在更具体的领域（如生物医学、法律等）中应用此数据集的用途有限。

附加信息

数据集策展人

巴塞罗那超级计算中心的语言技术单元 (langtech@bsc.es)。

许可信息

该工作根据 Attribution-NonCommercial-ShareAlike 4.0 International 许可发布，由于部分原始数据的许可限制。

引用信息

[N/A]

贡献

[N/A]

搜集汇总

数据集介绍

构建方式

ES-OC平行语料库的构建旨在支持西班牙低资源语言（如阿兰语）在自然语言处理任务中的应用，特别是在机器翻译领域。该数据集主要通过规则基础的翻译工具Apertium生成，结合了来自PILAR单语数据集的阿兰语文本以及OPUS中的西班牙语-阿兰语对。此外，还包含了从共享任务组织者提供的Aragonese单语文本中翻译的西班牙语文本。数据集经过详细的清理和预处理，但未进行对齐分数过滤，因此可能包含对齐不佳的句子。

特点

ES-OC平行语料库包含西班牙语和阿兰语的平行句子对，适用于训练双向或多语言机器翻译模型。阿兰语是西班牙加泰罗尼亚地区的一种奥克语变体，具有独特的语言特征。数据集以txt和parquet格式提供，parquet文件包含两列平行文本，每行代表一对平行句子。数据集仅包含训练集，未进行特定领域的筛选，适用于通用领域的机器翻译任务。

使用方法

ES-OC平行语料库可用于训练西班牙语与阿兰语之间的双语或多语言机器翻译模型。用户可通过加载parquet文件或直接使用txt文件获取平行句子对。由于数据集未进行特定领域的筛选，建议在通用领域任务中使用。在使用时需注意，数据可能包含未经过滤的对齐不佳句子，且部分数据可能涉及个人或敏感信息，需谨慎处理。

背景与挑战

背景概述

ES-OC Parallel Corpus数据集由巴塞罗那超级计算中心（BSC）的语言技术部门创建，旨在支持西班牙低资源语言（如阿兰语）在自然语言处理任务中的应用，特别是机器翻译。该数据集是WMT24共享任务的一部分，专注于将西班牙语翻译为西班牙的低资源语言。阿兰语是奥克语的一种变体，主要使用于加泰罗尼亚西北部的瓦尔德阿兰地区，是该地区的三种官方语言之一。该数据集的创建不仅促进了阿兰语在机器翻译领域的使用，还提升了该语言在数字时代的可见性和可访问性。

当前挑战

ES-OC Parallel Corpus数据集面临的主要挑战包括：首先，由于阿兰语是一种低资源语言，缺乏足够的平行语料库，导致数据集的构建依赖于合成数据生成技术，如使用Apertium规则翻译器进行翻译。其次，数据集中可能存在未经过滤的对齐不良的句子，这会影响机器翻译模型的训练效果。此外，数据集的部分内容来源于现有数据集，可能包含爬取的数据，未经过特定的匿名化处理，存在潜在的隐私问题。最后，该数据集主要适用于通用领域，在特定领域（如生物医学、法律等）的应用效果有限。

常用场景

经典使用场景

ES-OC Parallel Corpus 数据集主要用于支持西班牙语与阿拉尼斯语之间的机器翻译任务。该数据集通过提供高质量的平行语料，帮助研究人员训练和优化双语或多语言机器翻译模型，特别是在资源匮乏的语言环境中。其经典使用场景包括在自然语言处理（NLP）领域中进行跨语言翻译模型的训练与评估。

衍生相关工作

基于 ES-OC Parallel Corpus 数据集，研究者们开展了多项经典工作，包括低资源语言机器翻译模型的训练与优化、跨语言对齐算法的改进等。例如，该数据集被用于 WMT24 共享任务中的低资源语言翻译任务，推动了相关领域的技术进步。此外，该数据集还激发了更多关于低资源语言NLP任务的研究，为语言技术的多样化发展提供了重要支持。

数据集最近研究