five

projecte-aina/CA-EN_Parallel_Corpus

收藏
Hugging Face2025-05-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/CA-EN_Parallel_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
CA-EN平行语料库是一个加泰罗尼亚语-英语的平行句子数据集,旨在支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。数据集包含加泰罗尼亚语和英语的平行句子对,每个句子对包含语言概率评分、对齐评分、领域和文本类型等信息。数据集由多个领域和文本类型的句子组成,适用于训练双语和多语言机器翻译模型。
提供机构:
projecte-aina
原始信息汇总

CA-EN Parallel Corpus 数据集概述

数据集描述

数据集摘要

CA-EN Parallel Corpus 是一个包含 14,967,979 对平行句子的加泰罗尼亚语-英语数据集。该数据集旨在支持自然语言处理任务中的加泰罗尼亚语,特别是机器翻译。

支持的任务和排行榜

该数据集可用于训练英加泰罗尼亚语之间的双向机器翻译模型,以及多语言机器翻译模型。

语言

数据集中的句子包含加泰罗尼亚语(CA)和英语(EN)。

数据集结构

数据实例

数据集是一个单一的 tsv 文件,每行包含一对平行句子,以及每个句子的以下信息:

  • 语言概率得分,使用语言检测器 lingua.py 计算
  • 对齐得分,使用 LaBSE 计算
  • 领域
  • 文本类型

数据字段

每个示例包含以下 7 个字段:

  • ca: 加泰罗尼亚语句子
  • en: 英语句子
  • ca_prob: 加泰罗尼亚语句子的语言概率得分
  • en_prob: 英语句子的语言概率得分
  • alignment: 句子对的对齐得分
  • Domain: 领域(参见领域列表)
  • Type: 文本类型(参见文本类型列表)

数据分割

数据集包含一个单一的分割:train

可以通过按之前提到的领域和文本类型进行过滤,从原始数据集中提取特定领域或风格的子集。

数据集创建

策划理由

该数据集旨在促进加泰罗尼亚语与其他语言(特别是英语)之间的机器翻译的发展。

源数据

初始数据收集和规范化

数据是加泰罗尼亚语和英语的平行句子集合,部分来自网络爬取,属于不同的领域和风格。源数据部分是加泰罗尼亚语真实文本翻译成英语,部分是英语真实文本翻译成加泰罗尼亚语。

数据是通过人工翻译和机器翻译结合人工校对获得的。

获得的语料库包含 14,967,979 对平行句子。

源语言生产者

原始数据收集委托给通过公开招标过程的外部公司。

注释

注释过程

数据集不包含任何注释。

注释者

[N/A]

个人和敏感信息

由于该数据集部分源自可能包含爬取数据的现有数据集,并且没有应用特定的匿名化过程,因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。

使用数据的注意事项

数据集的社会影响

通过提供这一资源,我们旨在促进加泰罗尼亚语在自然语言处理任务中的使用,从而提高加泰罗尼亚语的可访问性和可见性。

讨论偏见

没有针对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。

其他已知限制

数据集包含多个特定领域的数据。该数据集可以作为一个整体使用,也可以通过按领域或文本类型提取子集来使用。在数据集包含领域之外的应用将受到限制。

附加信息

数据集策展人

巴塞罗那超级计算中心(BSC)的语言技术单元(langtech@bsc.es)。

这项工作由加泰罗尼亚政府通过 Aina 项目 推广和资助。

许可信息

该工作根据 Creative Commons Attribution 4.0 International license 许可。

引用信息

[N/A]

贡献

[N/A]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作