projecte-aina/CA-GL_Parallel_Corpus
收藏数据集卡片 for CA-GL Parallel Corpus
数据集描述
数据集概述
CA-GL Parallel Corpus 是一个包含 33,668,599 句平行句子的加泰罗尼亚语-加利西亚语合成数据集。该数据集旨在支持西班牙的共同官方语言(如加泰罗尼亚语和加利西亚语)在自然语言处理任务中的应用,特别是机器翻译。
支持的任务和排行榜
该数据集可用于训练加利西亚语和加泰罗尼亚语之间的双语机器翻译模型,以及多语言机器翻译模型。
语言
数据集中的句子包含加泰罗尼亚语(CA)和加利西亚语(GL)。
数据集结构
数据实例
提供了两个单独的 txt 文件,句子按相同顺序排列:
nos_all.ca:包含 33,668,599 句加泰罗尼亚语句子(合成)。nos_all.gl:包含 33,668,599 句加利西亚语句子(真实)。
数据字段
[N/A]
数据分割
数据集包含一个分割:train。
数据集创建
策划理由
该数据集旨在促进加泰罗尼亚语与其他西班牙共同官方语言(特别是加利西亚语)之间的机器翻译的发展。
源数据
初始数据收集和规范化
该合成数据集是在 Ilenia 项目框架内创建的。Proxecto Nós 提供的真实平行语料库 ES-GL 被用于将西班牙语翻译成加泰罗尼亚语,使用机器翻译模型 PlanTL-GOB-ES。
总计:33,668,599 句平行句子。
源语言生产者
注释
注释过程
数据集不包含任何注释。
注释者
[N/A]
个人和敏感信息
由于该数据集部分源自可能包含爬取数据的现有数据集,并且没有应用特定的匿名化过程,因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。
使用数据的考虑因素
数据集的社会影响
通过提供这一资源,我们旨在促进加泰罗尼亚语和加利西亚语(西班牙的两种共同官方语言)在自然语言处理任务中的应用,从而提高这两种语言的可访问性和可见性。
偏见的讨论
没有针对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。
其他已知限制
该数据集包含一般领域的数据。在更具体的领域(如生物医学、法律等)中应用该数据集的用途有限。
附加信息
数据集策展人
巴塞罗那超级计算中心语言技术单元(langtech@bsc.es)。
该项目由数字转型和公共职能部门资助,由欧盟资助 – NextGenerationEU 在 project ILENIA 框架内,参考号 2022/TL22/00215337, 2022/TL22/00215336, 2022/TL22/00215335 和 2022/TL22/00215334。
许可信息
本作品采用 Attribution-NonCommercial-ShareAlike 4.0 International 许可。
引用信息
[N/A]
贡献
[N/A]



