five

projecte-aina/CA-EU_Parallel_Corpus

收藏
Hugging Face2024-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CA-EU_Parallel_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
CA-EU平行语料库是一个加泰罗尼亚语-巴斯克语的合成平行句子数据集,旨在支持西班牙的官方语言(如加泰罗尼亚语和巴斯克语)在NLP任务中的使用,特别是机器翻译。数据集包含加泰罗尼亚语和巴斯克语的平行句子对,以txt和parquet格式提供,包含一个训练集。数据集的创建是为了促进加泰罗尼亚语和巴斯克语在NLP任务中的使用,特别是机器翻译。

The CA-EU Parallel Corpus is a Catalan-Basque synthetic dataset of parallel sentences created to support the use of co-official languages from Spain, such as Catalan and Basque, in NLP tasks, specifically Machine Translation. The dataset contains parallel sentence pairs in Catalan and Basque, provided in txt and parquet formats, and includes a single training split. The creation of this dataset aims to promote the use of Catalan and Basque in NLP tasks, particularly in machine translation.
提供机构:
projecte-aina
原始信息汇总

数据集卡片 for CA-EU Parallel Corpus

数据集描述

数据集概述

CA-EU Parallel Corpus 是一个包含 9,692,996 对平行句子的加泰罗尼亚语-巴斯克语合成数据集。该数据集旨在支持西班牙的加泰罗尼亚语和巴斯克语等共同官方语言在自然语言处理任务中的应用,特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练巴斯克语和加泰罗尼亚语之间的双语机器翻译模型,以及多语种机器翻译模型。

语言

数据集中的句子包含加泰罗尼亚语(CA)和巴斯克语(EU)。

数据集结构

数据实例

提供了两个单独的 txt 文件,句子按相同顺序排列:

  • train_clean.ca:包含 9,692,996 个加泰罗尼亚语句子(合成)。
  • train_clean.eu:包含 9,692,996 个巴斯克语句子(真实)。

数据字段

[N/A]

数据分割

数据集包含一个分割:train

数据集创建

策划理由

该数据集旨在促进加泰罗尼亚语与其他西班牙共同官方语言(特别是巴斯克语)之间的机器翻译的发展。

源数据

初始数据收集和规范化

该合成数据集是在 Ilenia 项目框架内创建的。一个真实的平行语料库 ES-EU 由 HiTZ 提供,西班牙语被使用机器翻译模型 PlanTL-GOB-ES 翻译成加泰罗尼亚语。

总计:9,692,996 对平行句子

源语言生产者

HiTZ

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

由于该数据集部分源自可能包含抓取数据的现有数据集,并且未应用特定的匿名化过程,因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。

使用数据时的考虑

数据集的社会影响

通过提供这一资源,我们旨在促进加泰罗尼亚语和巴斯克语(西班牙的两种共同官方语言)在自然语言处理任务中的应用,从而提高这两种语言的可访问性和可见性。

偏见的讨论

未对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

该数据集包含一般领域的数据。在生物医学、法律等更具体的领域中应用该数据集的用途有限。

附加信息

数据集策展人

巴塞罗那超级计算中心语言技术单元(langtech@bsc.es)。

许可信息

该作品根据 Attribution-NonCommercial-ShareAlike 4.0 International 许可进行许可。

引用信息

[N/A]

贡献

[N/A]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作