projecte-aina/CA-ZH_Parallel_Corpus
收藏CA-ZH Parallel Corpus 数据集概述
数据集描述
数据集摘要
CA-ZH Parallel Corpus 是一个包含 6,833,114 句平行句子的加泰罗尼亚语-中文数据集。该数据集旨在支持加泰罗尼亚语在自然语言处理任务中的应用,特别是机器翻译。
支持的任务和排行榜
该数据集可用于训练中加泰罗尼亚语之间的双向机器翻译模型,以及多语言机器翻译模型。
语言
数据集中的句子包含加泰罗尼亚语(CA)和中文(ZH)。
数据集结构
数据实例
提供了两个单独的 txt 文件,句子按相同顺序排列:
ca-zh_all_2023_10_26.ca:包含 6,833,114 句加泰罗尼亚语句子。ca-zh_all_2023_10_26.zh:包含 6,833,114 句中文句子。
数据字段
[N/A]
数据分割
数据集包含一个分割:train。
数据集创建
创建理由
该数据集旨在促进加泰罗尼亚语与其他语言(特别是中文)之间的机器翻译发展。
源数据
初始数据收集和规范化
加泰罗尼亚语-中文数据是从网络收集的,结合了以下数据集:
| 数据集 | 清洗前句子数 |
|---|---|
| WikiMatrix | 90,643 |
| XLENT | 535,803 |
| GNOME | 78 |
| OpenSubtitles | 139,300 |
6,658,607 句合成平行数据是从以下西班牙语-中文数据集创建的:
| 数据集 | 清洗前句子数 |
|---|---|
| UNPC | 17,599,223 |
| CCMatrix | 24,051,233 |
| MultiParacrawl | 3,410,087 |
| 总计 | 45,060,543 |
数据准备
所有数据集的中文部分通过 fastlangid 语言检测器处理,未被识别为简体中文的句子被丢弃。数据集随后进行去重和过滤,去除余弦相似度小于 0.75 的句子对。使用 LaBSE 计算句子嵌入进行过滤。最终合并形成包含 6,833,114 句平行句子的语料库。
源语言生产者
注释
注释过程
数据集不包含任何注释。
注释者
[N/A]
个人和敏感信息
由于该数据集部分源自可能包含爬取数据的前置数据集,且未进行特定匿名化处理,数据中可能存在个人和敏感信息。在使用数据训练模型时需考虑这一点。
使用数据的考虑因素
数据集的社会影响
通过提供这一资源,我们旨在促进加泰罗尼亚语在自然语言处理任务中的应用,从而提高该语言的可访问性和可见度。
偏见讨论
未对该数据集应用特定的偏见缓解策略。数据中可能存在固有偏见。
其他已知限制
该数据集包含通用领域数据。在更具体的领域(如生物医学、法律等)中应用该数据集将有限。
附加信息
数据集策展人
巴塞罗那超级计算中心语言技术单元 (langtech@bsc.es)。
该工作由加泰罗尼亚政府通过 Aina 项目 推动和资助。
许可信息
该工作基于 Attribution-NonCommercial-ShareAlike 4.0 International 许可。
引用信息
[N/A]
贡献
[N/A]



