projecte-aina/CA-GL_Parallel_Corpus

Name: projecte-aina/CA-GL_Parallel_Corpus
Creator: projecte-aina
Published: 2025-05-21 12:17:15
License: 暂无描述

Hugging Face2025-05-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/CA-GL_Parallel_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CA-GL平行语料库是一个加泰罗尼亚语-加利西亚语的合成数据集，旨在支持西班牙的官方语言（如加泰罗尼亚语和加利西亚语）在自然语言处理任务中的使用，特别是机器翻译。该数据集包含加泰罗尼亚语和加利西亚语的平行句子，可用于训练双语或多语言机器翻译模型。数据集由Barcelona Supercomputing Center的语言技术部门创建，并得到了欧盟NextGenerationEU项目的资助。

提供机构：

projecte-aina

原始信息汇总

数据集卡片 for CA-GL Parallel Corpus

数据集描述

数据集概述

CA-GL Parallel Corpus 是一个包含 33,668,599 句平行句子的加泰罗尼亚语-加利西亚语合成数据集。该数据集旨在支持西班牙的共同官方语言（如加泰罗尼亚语和加利西亚语）在自然语言处理任务中的应用，特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练加利西亚语和加泰罗尼亚语之间的双语机器翻译模型，以及多语言机器翻译模型。

语言

数据集中的句子包含加泰罗尼亚语（CA）和加利西亚语（GL）。

数据集结构

数据实例

提供了两个单独的 txt 文件，句子按相同顺序排列：

nos_all.ca：包含 33,668,599 句加泰罗尼亚语句子（合成）。
nos_all.gl：包含 33,668,599 句加利西亚语句子（真实）。

数据字段

[N/A]

数据分割

数据集包含一个分割：train。

数据集创建

策划理由

该数据集旨在促进加泰罗尼亚语与其他西班牙共同官方语言（特别是加利西亚语）之间的机器翻译的发展。

源数据

初始数据收集和规范化

该合成数据集是在 Ilenia 项目框架内创建的。Proxecto Nós 提供的真实平行语料库 ES-GL 被用于将西班牙语翻译成加泰罗尼亚语，使用机器翻译模型 PlanTL-GOB-ES。

总计：33,668,599 句平行句子。

源语言生产者

Proxecto Nós

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

由于该数据集部分源自可能包含爬取数据的现有数据集，并且没有应用特定的匿名化过程，因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。

使用数据的考虑因素

数据集的社会影响

通过提供这一资源，我们旨在促进加泰罗尼亚语和加利西亚语（西班牙的两种共同官方语言）在自然语言处理任务中的应用，从而提高这两种语言的可访问性和可见性。

偏见的讨论

没有针对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

该数据集包含一般领域的数据。在更具体的领域（如生物医学、法律等）中应用该数据集的用途有限。

附加信息

数据集策展人

巴塞罗那超级计算中心语言技术单元（langtech@bsc.es）。

该项目由数字转型和公共职能部门资助，由欧盟资助 – NextGenerationEU 在 project ILENIA 框架内，参考号 2022/TL22/00215337, 2022/TL22/00215336, 2022/TL22/00215335 和 2022/TL22/00215334。

许可信息

本作品采用 Attribution-NonCommercial-ShareAlike 4.0 International 许可。

引用信息

[N/A]

贡献

[N/A]

5,000+

优质数据集

54 个

任务类型

进入经典数据集