projecte-aina/CA-EN_Parallel_Corpus

Name: projecte-aina/CA-EN_Parallel_Corpus
Creator: projecte-aina
Published: 2025-05-21 08:18:08
License: 暂无描述

Hugging Face2025-05-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/CA-EN_Parallel_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CA-EN平行语料库是一个加泰罗尼亚语-英语的平行句子数据集，旨在支持加泰罗尼亚语在自然语言处理任务中的应用，特别是机器翻译。数据集包含加泰罗尼亚语和英语的平行句子对，每个句子对包含语言概率评分、对齐评分、领域和文本类型等信息。数据集由多个领域和文本类型的句子组成，适用于训练双语和多语言机器翻译模型。

提供机构：

projecte-aina

原始信息汇总

CA-EN Parallel Corpus 数据集概述

数据集描述

数据集摘要

CA-EN Parallel Corpus 是一个包含 14,967,979 对平行句子的加泰罗尼亚语-英语数据集。该数据集旨在支持自然语言处理任务中的加泰罗尼亚语，特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练英加泰罗尼亚语之间的双向机器翻译模型，以及多语言机器翻译模型。

语言

数据集中的句子包含加泰罗尼亚语（CA）和英语（EN）。

数据集结构

数据实例

数据集是一个单一的 tsv 文件，每行包含一对平行句子，以及每个句子的以下信息：

语言概率得分，使用语言检测器 lingua.py 计算
对齐得分，使用 LaBSE 计算
领域
文本类型

数据字段

每个示例包含以下 7 个字段：

ca: 加泰罗尼亚语句子
en: 英语句子
ca_prob: 加泰罗尼亚语句子的语言概率得分
en_prob: 英语句子的语言概率得分
alignment: 句子对的对齐得分
Domain: 领域（参见领域列表）
Type: 文本类型（参见文本类型列表）

数据分割

数据集包含一个单一的分割：train。

可以通过按之前提到的领域和文本类型进行过滤，从原始数据集中提取特定领域或风格的子集。

数据集创建

策划理由

该数据集旨在促进加泰罗尼亚语与其他语言（特别是英语）之间的机器翻译的发展。

源数据

初始数据收集和规范化

数据是加泰罗尼亚语和英语的平行句子集合，部分来自网络爬取，属于不同的领域和风格。源数据部分是加泰罗尼亚语真实文本翻译成英语，部分是英语真实文本翻译成加泰罗尼亚语。

数据是通过人工翻译和机器翻译结合人工校对获得的。

获得的语料库包含 14,967,979 对平行句子。

源语言生产者

原始数据收集委托给通过公开招标过程的外部公司。

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

由于该数据集部分源自可能包含爬取数据的现有数据集，并且没有应用特定的匿名化过程，因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。

使用数据的注意事项

数据集的社会影响

通过提供这一资源，我们旨在促进加泰罗尼亚语在自然语言处理任务中的使用，从而提高加泰罗尼亚语的可访问性和可见性。

讨论偏见

没有针对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

数据集包含多个特定领域的数据。该数据集可以作为一个整体使用，也可以通过按领域或文本类型提取子集来使用。在数据集包含领域之外的应用将受到限制。

附加信息

数据集策展人

巴塞罗那超级计算中心（BSC）的语言技术单元（langtech@bsc.es）。

这项工作由加泰罗尼亚政府通过 Aina 项目推广和资助。

许可信息

该工作根据 Creative Commons Attribution 4.0 International license 许可。

引用信息

[N/A]

贡献

[N/A]

5,000+

优质数据集

54 个

任务类型

进入经典数据集