five

projecte-aina/CA-PT_Parallel_Corpus

收藏
Hugging Face2025-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CA-PT_Parallel_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
CA-PT平行语料库是一个包含加泰罗尼亚语和葡萄牙语的平行句子数据集,总共有9,892,953对句子。该数据集的创建目的是支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。数据集包含两个文本文件,分别存储加泰罗尼亚语和葡萄牙语的句子,句子顺序相同。数据集的来源包括多个公开数据集,如CCMatrix、WikiMatrix、GNOME、KDE4、OpenSubtitles、GlobalVoices、Tatoeba和Europarl,部分数据是通过西班牙语-葡萄牙语语料库翻译生成的。数据集经过去重和过滤,确保句子对的余弦相似度不低于0.75。

CA-PT平行语料库是一个包含加泰罗尼亚语和葡萄牙语的平行句子数据集,总共有9,892,953对句子。该数据集的创建目的是支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。数据集包含两个文本文件,分别存储加泰罗尼亚语和葡萄牙语的句子,句子顺序相同。数据集的来源包括多个公开数据集,如CCMatrix、WikiMatrix、GNOME、KDE4、OpenSubtitles、GlobalVoices、Tatoeba和Europarl,部分数据是通过西班牙语-葡萄牙语语料库翻译生成的。数据集经过去重和过滤,确保句子对的余弦相似度不低于0.75。
提供机构:
projecte-aina
原始信息汇总

数据集卡片 for CA-PT 平行语料库

数据集描述

数据集概述

CA-PT 平行语料库是一个包含 9,892,953 对平行句子的加泰罗尼亚语-葡萄牙语数据集。该数据集旨在支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练葡萄牙语和加泰罗尼亚语之间的双语机器翻译模型,以及多语种机器翻译模型。

语言

数据集中的句子包含加泰罗尼亚语(CA)和葡萄牙语(PT)。

数据集结构

数据实例

提供了两个单独的 txt 文件,句子按相同顺序排列:

  • ca-pt_2023_09_01_full.ca:包含 9,892,953 个加泰罗尼亚语句子。
  • ca-pt_2023_09_01_full.pt:包含 9,892,953 个葡萄牙语句子。

数据字段

[N/A]

数据分割

数据集包含一个分割:train

数据集创建

策划理由

该数据集旨在促进加泰罗尼亚语与其他语言(特别是葡萄牙语)之间的机器翻译的发展。

源数据

初始数据收集和规范化

数据集是以下原始数据集的组合:

数据集 句子数
CCMatrix v1 3,765,459
WikiMatrix 317,649
GNOME 1,752
KDE4 117,828
OpenSubtitles 235,604
GlobalVoices 3,430
Tatoeba 723
Europarl 1,631,989

除了 Europarl 之外的所有语料库均从 Opus 收集。Europarl 语料库是由 SoftCatalà 从原始的西班牙语-加泰罗尼亚语语料库创建的合成平行语料库。

剩余的 3,733,322 个句子是从 Opus 上可用的西班牙语-葡萄牙语语料库中随机抽样并使用 PlanTL es-ca 模型翻译成加泰罗尼亚语的合成平行数据。

所有数据集都经过去重和过滤,以删除任何余弦相似度小于 0.75 的句子对。这是通过使用 LaBSE 计算的句子嵌入完成的。过滤后的数据集随后被连接起来,形成一个包含 9,892,953 对平行句子的最终语料库。

源语言生产者

Opus

SoftCatalà

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

由于该数据集部分源自可能包含爬取数据的现有数据集,并且未应用特定的匿名化处理,因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。

使用数据集的考虑因素

数据集的社会影响

通过提供这一资源,我们旨在促进加泰罗尼亚语在自然语言处理任务中的使用,从而提高加泰罗尼亚语的可访问性和可见性。

偏见的讨论

没有针对此数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

该数据集包含一般领域的数据。在生物医学、法律等更具体的领域中应用此数据集的用途有限。

附加信息

数据集策展人

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的语言技术部门(langtech@bsc.es)。

此工作得到了加泰罗尼亚政府通过 Aina 项目 的推广和资助。

许可信息

本作品采用 Attribution-NonCommercial-ShareAlike 4.0 International 许可。

引用信息

[N/A]

贡献

[N/A]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作