projecte-aina/CA-FR_Parallel_Corpus

Name: projecte-aina/CA-FR_Parallel_Corpus
Creator: projecte-aina
Published: 2025-07-02 07:02:13
License: 暂无描述

Hugging Face2025-07-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/CA-FR_Parallel_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CA-FR平行语料库是一个加泰罗尼亚语和法语的双语平行句子数据集，旨在支持加泰罗尼亚语在自然语言处理任务中的应用，特别是机器翻译。该数据集包含两个文本文件，分别存储加泰罗尼亚语和法语的句子，并且还提供了parquet格式的文件，其中包含两列平行文本。数据集的创建目的是促进加泰罗尼亚语与其他语言（特别是法语）之间的机器翻译发展。数据集来源于多个原始数据集，经过去重和过滤处理，最终形成。数据集的使用需要考虑可能存在的个人和敏感信息。

提供机构：

projecte-aina

原始信息汇总

CA-FR 并行语料库数据集卡片

数据集描述

数据集概述

CA-FR 并行语料库是一个包含 18,634,844 条加泰罗尼亚语-法语并行句子的数据集。该数据集旨在支持加泰罗尼亚语在自然语言处理任务中的应用，特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练法语和加泰罗尼亚语之间的双语机器翻译模型，以及多语种机器翻译模型。

语言

数据集中的句子包含加泰罗尼亚语（CA）和法语（FR）。

数据集结构

数据实例

提供了两个单独的 txt 文件，句子按相同顺序排列：

ca-fr_corpus.ca：包含 18,634,844 条加泰罗尼亚语句子。
ca-fr_corpus.fr：包含 18,634,844 条法语句子。

数据字段

[N/A]

数据分割

数据集包含一个分割：train。

数据集创建

策划理由

该数据集旨在促进加泰罗尼亚语与其他语言（特别是法语）之间的机器翻译的发展。

源数据

初始数据收集和规范化

该数据集是以下原始数据集的组合：

数据集	句子数量
CCMatrix	16,305,758
Multi CCAligned	1,442,584
WikiMatrix	437,665
GNOME	1,686
KDE 4	111,750
Open Subtitles	225,786

所有语料库均从 Opus 收集。所有数据集都经过去重和过滤，以删除任何余弦相似度小于 0.75 的句子对。这是使用 LaBSE 计算的句子嵌入完成的。过滤后的数据集随后被连接起来，形成一个包含 18,634,844 条并行句子的最终语料库。

源语言生产者

Opus

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

鉴于该数据集部分源自可能包含爬取数据的现有数据集，并且未应用特定的匿名化过程，数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。

使用数据集的考虑因素

数据集的社会影响

通过提供这一资源，我们旨在促进加泰罗尼亚语在自然语言处理任务中的使用，从而提高加泰罗尼亚语的可访问性和可见性。

偏见的讨论

未对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

该数据集包含一般领域的数据。在更具体的领域（如生物医学、法律等）中应用此数据集的用途有限。

附加信息

数据集策展人

巴塞罗那超级计算中心（Barcelona Supercomputing Center）的语言技术单元（langtech@bsc.es）。

此工作得到了加泰罗尼亚政府通过 Aina 项目的推广和资助。

许可信息

本作品采用 Attribution-NonCommercial-ShareAlike 4.0 International 许可。

引用信息

[N/A]

贡献

[N/A]

5,000+

优质数据集

54 个

任务类型

进入经典数据集