five

projecte-aina/CA-ZH_Parallel_Corpus

收藏
Hugging Face2025-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CA-ZH_Parallel_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
CA-ZH平行语料库是一个加泰罗尼亚语-中文的平行句子数据集,旨在支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。该数据集包含加泰罗尼亚语和中文的平行句子,适用于双语和多语言机器翻译模型的训练。数据集的来源包括多个公开的平行语料库,如Opus、WMT和Projecte Aina,并经过了一系列的数据处理和过滤,以确保数据质量。数据集以txt和parquet格式提供,包含一个训练集分割。

CA-ZH平行语料库是一个加泰罗尼亚语-中文的平行句子数据集,旨在支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。该数据集包含加泰罗尼亚语和中文的平行句子,适用于双语和多语言机器翻译模型的训练。数据集的来源包括多个公开的平行语料库,如Opus、WMT和Projecte Aina,并经过了一系列的数据处理和过滤,以确保数据质量。数据集以txt和parquet格式提供,包含一个训练集分割。
提供机构:
projecte-aina
原始信息汇总

CA-ZH Parallel Corpus 数据集概述

数据集描述

数据集摘要

CA-ZH Parallel Corpus 是一个包含 6,833,114 句平行句子的加泰罗尼亚语-中文数据集。该数据集旨在支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练中加泰罗尼亚语之间的双向机器翻译模型,以及多语言机器翻译模型。

语言

数据集中的句子包含加泰罗尼亚语(CA)和中文(ZH)。

数据集结构

数据实例

提供了两个单独的 txt 文件,句子按相同顺序排列:

  • ca-zh_all_2023_10_26.ca:包含 6,833,114 句加泰罗尼亚语句子。
  • ca-zh_all_2023_10_26.zh:包含 6,833,114 句中文句子。

数据字段

[N/A]

数据分割

数据集包含一个分割:train

数据集创建

创建理由

该数据集旨在促进加泰罗尼亚语与其他语言(特别是中文)之间的机器翻译发展。

源数据

初始数据收集和规范化

加泰罗尼亚语-中文数据是从网络收集的,结合了以下数据集:

数据集 清洗前句子数
WikiMatrix 90,643
XLENT 535,803
GNOME 78
OpenSubtitles 139,300

6,658,607 句合成平行数据是从以下西班牙语-中文数据集创建的:

数据集 清洗前句子数
UNPC 17,599,223
CCMatrix 24,051,233
MultiParacrawl 3,410,087
总计 45,060,543

数据准备

所有数据集的中文部分通过 fastlangid 语言检测器处理,未被识别为简体中文的句子被丢弃。数据集随后进行去重和过滤,去除余弦相似度小于 0.75 的句子对。使用 LaBSE 计算句子嵌入进行过滤。最终合并形成包含 6,833,114 句平行句子的语料库。

源语言生产者

Opus

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

由于该数据集部分源自可能包含爬取数据的前置数据集,且未进行特定匿名化处理,数据中可能存在个人和敏感信息。在使用数据训练模型时需考虑这一点。

使用数据的考虑因素

数据集的社会影响

通过提供这一资源,我们旨在促进加泰罗尼亚语在自然语言处理任务中的应用,从而提高该语言的可访问性和可见度。

偏见讨论

未对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

该数据集包含通用领域数据。在更具体的领域(如生物医学、法律等)中应用该数据集将有限。

附加信息

数据集策展人

巴塞罗那超级计算中心语言技术单元 (langtech@bsc.es)。

该工作由加泰罗尼亚政府通过 Aina 项目 推动和资助。

许可信息

该工作基于 Attribution-NonCommercial-ShareAlike 4.0 International 许可。

引用信息

[N/A]

贡献

[N/A]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作