projecte-aina/CA-ZH_Parallel_Corpus

Name: projecte-aina/CA-ZH_Parallel_Corpus
Creator: projecte-aina
Published: 2025-07-02 07:05:26
License: 暂无描述

Hugging Face2025-07-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/CA-ZH_Parallel_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CA-ZH平行语料库是一个加泰罗尼亚语-中文的平行句子数据集，旨在支持加泰罗尼亚语在自然语言处理任务中的应用，特别是机器翻译。该数据集包含加泰罗尼亚语和中文的平行句子，适用于双语和多语言机器翻译模型的训练。数据集的来源包括多个公开的平行语料库，如Opus、WMT和Projecte Aina，并经过了一系列的数据处理和过滤，以确保数据质量。数据集以txt和parquet格式提供，包含一个训练集分割。

提供机构：

projecte-aina

原始信息汇总

CA-ZH Parallel Corpus 数据集概述

数据集描述

数据集摘要

CA-ZH Parallel Corpus 是一个包含 6,833,114 句平行句子的加泰罗尼亚语-中文数据集。该数据集旨在支持加泰罗尼亚语在自然语言处理任务中的应用，特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练中加泰罗尼亚语之间的双向机器翻译模型，以及多语言机器翻译模型。

语言

数据集中的句子包含加泰罗尼亚语（CA）和中文（ZH）。

数据集结构

数据实例

提供了两个单独的 txt 文件，句子按相同顺序排列：

ca-zh_all_2023_10_26.ca：包含 6,833,114 句加泰罗尼亚语句子。
ca-zh_all_2023_10_26.zh：包含 6,833,114 句中文句子。

数据字段

[N/A]

数据分割

数据集包含一个分割：train。

数据集创建

创建理由

该数据集旨在促进加泰罗尼亚语与其他语言（特别是中文）之间的机器翻译发展。

源数据

初始数据收集和规范化

加泰罗尼亚语-中文数据是从网络收集的，结合了以下数据集：

数据集	清洗前句子数
WikiMatrix	90,643
XLENT	535,803
GNOME	78
OpenSubtitles	139,300

6,658,607 句合成平行数据是从以下西班牙语-中文数据集创建的：

数据集	清洗前句子数
UNPC	17,599,223
CCMatrix	24,051,233
MultiParacrawl	3,410,087
总计	45,060,543

数据准备

所有数据集的中文部分通过 fastlangid 语言检测器处理，未被识别为简体中文的句子被丢弃。数据集随后进行去重和过滤，去除余弦相似度小于 0.75 的句子对。使用 LaBSE 计算句子嵌入进行过滤。最终合并形成包含 6,833,114 句平行句子的语料库。

源语言生产者

Opus

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

由于该数据集部分源自可能包含爬取数据的前置数据集，且未进行特定匿名化处理，数据中可能存在个人和敏感信息。在使用数据训练模型时需考虑这一点。

使用数据的考虑因素

数据集的社会影响

通过提供这一资源，我们旨在促进加泰罗尼亚语在自然语言处理任务中的应用，从而提高该语言的可访问性和可见度。

偏见讨论

未对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

该数据集包含通用领域数据。在更具体的领域（如生物医学、法律等）中应用该数据集将有限。

附加信息

数据集策展人

巴塞罗那超级计算中心语言技术单元 (langtech@bsc.es)。

该工作由加泰罗尼亚政府通过 Aina 项目推动和资助。

许可信息

该工作基于 Attribution-NonCommercial-ShareAlike 4.0 International 许可。

引用信息

[N/A]

贡献

[N/A]

5,000+

优质数据集

54 个

任务类型

进入经典数据集