projecte-aina/CA-DE_Parallel_Corpus
收藏CA-DE Parallel Corpus 数据集概述
数据集描述
数据集概要
CA-DE Parallel Corpus 是一个包含 9,530,709 句平行语料的加泰罗尼亚语-德语数据集。该数据集旨在支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。
支持的任务和排行榜
该数据集可用于训练德语和加泰罗尼亚语之间的双语机器翻译模型,以及多语种机器翻译模型。
语言
数据集中的句子包含加泰罗尼亚语(CA)和德语(DE)。
数据集结构
数据实例
提供了两个单独的 txt 文件,句子按相同顺序排列:
ca-de_all_2023_09_11.ca:包含 9,530,709 句加泰罗尼亚语句子。ca-de_all_2023_09_11.de:包含 9,530,709 句德语句子。
数据字段
[N/A]
数据分割
数据集包含一个分割:train。
数据集创建
策划理由
该数据集旨在促进加泰罗尼亚语与其他语言(特别是德语)之间的机器翻译开发。
源数据
初始数据收集和规范化
数据集是以下原始数据集的组合:
| 数据集 | 句子数量 |
|---|---|
| Multi CCAligned | 1,027,481 |
| WikiMatrix | 125,811 |
| GNOME | 1,241 |
| KDE4 | 105,098 |
| OpenSubtitles | 171,376 |
| GlobalVoices | 3,578 |
| Tatoeba | 655 |
| Books | 2,049 |
| Europarl | 1,734,643 |
| Tilde | 3,434,091 |
除了 Europarl 和 Tilde 之外的所有语料库均从 Opus 收集。Europarl 和 Tilde 语料库是通过 SoftCatalà 从原始的西班牙语-加泰罗尼亚语语料库创建的合成平行语料库。
剩余的 3,272,437 句是通过对 Opus 上可用的西班牙语-德语语料库进行随机抽样,并使用 PlanTL es-ca 模型翻译成加泰罗尼亚语创建的合成平行数据。
所有数据集都经过去重和过滤,以删除任何余弦相似度小于 0.75 的句子对。这是通过使用 LaBSE 计算的句子嵌入来完成的。过滤后的数据集随后连接形成最终的 9,530,709 句平行语料库。
源语言生产者
注释
注释过程
数据集不包含任何注释。
注释者
[N/A]
个人和敏感信息
由于该数据集部分源自可能包含爬取数据的现有数据集,并且未应用特定的匿名化处理,因此数据中可能存在个人和敏感信息。在使用数据训练模型时需要考虑这一点。
使用数据集的考虑因素
数据集的社会影响
通过提供这一资源,我们旨在促进加泰罗尼亚语在自然语言处理任务中的应用,从而提高加泰罗尼亚语的可访问性和可见性。
偏见的讨论
未对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。
其他已知限制
该数据集包含一般领域的数据。在更具体的领域(如生物医学、法律等)中应用该数据集的效用有限。
附加信息
数据集策展人
巴塞罗那超级计算中心语言技术单元(langtech@bsc.es)。
该工作得到了加泰罗尼亚政府通过 Aina 项目 的推广和资助。
许可信息
该工作根据 Attribution-NonCommercial-ShareAlike 4.0 International 许可进行许可。
引用信息
[N/A]
贡献
[N/A]



