projecte-aina/CA-EN_Parallel_Corpus
收藏CA-EN Parallel Corpus 数据集概述
数据集描述
数据集摘要
CA-EN Parallel Corpus 是一个包含 14,967,979 对平行句子的加泰罗尼亚语-英语数据集。该数据集旨在支持自然语言处理任务中的加泰罗尼亚语,特别是机器翻译。
支持的任务和排行榜
该数据集可用于训练英加泰罗尼亚语之间的双向机器翻译模型,以及多语言机器翻译模型。
语言
数据集中的句子包含加泰罗尼亚语(CA)和英语(EN)。
数据集结构
数据实例
数据集是一个单一的 tsv 文件,每行包含一对平行句子,以及每个句子的以下信息:
数据字段
每个示例包含以下 7 个字段:
- ca: 加泰罗尼亚语句子
- en: 英语句子
- ca_prob: 加泰罗尼亚语句子的语言概率得分
- en_prob: 英语句子的语言概率得分
- alignment: 句子对的对齐得分
- Domain: 领域(参见领域列表)
- Type: 文本类型(参见文本类型列表)
数据分割
数据集包含一个单一的分割:train。
可以通过按之前提到的领域和文本类型进行过滤,从原始数据集中提取特定领域或风格的子集。
数据集创建
策划理由
该数据集旨在促进加泰罗尼亚语与其他语言(特别是英语)之间的机器翻译的发展。
源数据
初始数据收集和规范化
数据是加泰罗尼亚语和英语的平行句子集合,部分来自网络爬取,属于不同的领域和风格。源数据部分是加泰罗尼亚语真实文本翻译成英语,部分是英语真实文本翻译成加泰罗尼亚语。
数据是通过人工翻译和机器翻译结合人工校对获得的。
获得的语料库包含 14,967,979 对平行句子。
源语言生产者
原始数据收集委托给通过公开招标过程的外部公司。
注释
注释过程
数据集不包含任何注释。
注释者
[N/A]
个人和敏感信息
由于该数据集部分源自可能包含爬取数据的现有数据集,并且没有应用特定的匿名化过程,因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。
使用数据的注意事项
数据集的社会影响
通过提供这一资源,我们旨在促进加泰罗尼亚语在自然语言处理任务中的使用,从而提高加泰罗尼亚语的可访问性和可见性。
讨论偏见
没有针对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。
其他已知限制
数据集包含多个特定领域的数据。该数据集可以作为一个整体使用,也可以通过按领域或文本类型提取子集来使用。在数据集包含领域之外的应用将受到限制。
附加信息
数据集策展人
巴塞罗那超级计算中心(BSC)的语言技术单元(langtech@bsc.es)。
这项工作由加泰罗尼亚政府通过 Aina 项目 推广和资助。
许可信息
该工作根据 Creative Commons Attribution 4.0 International license 许可。
引用信息
[N/A]
贡献
[N/A]



