projecte-aina/escagleu-64k
收藏数据集卡片 for escagleu-64K 语料库
数据集描述
数据集摘要
escagleu-64k 是一个包含 64091 句子的平行语料库,涵盖西班牙语、加泰罗尼亚语、巴伦西亚加泰罗尼亚语、加利西亚语和巴斯克语。原始句子为西班牙语,来自 西班牙 Common Voice 语料库。
支持的任务和排行榜
该数据集可用于训练机器翻译(MT)模型、语音到文本翻译模型和语音到语音翻译模型。
语言
该多语言数据集包括西班牙语(es)、加泰罗尼亚语(ca)、巴伦西亚加泰罗尼亚语(ca-va)、加利西亚语(gl)和巴斯克语(eu)。
数据集结构
提供了五个独立的 tsv 文件,句子按相同顺序排列:
- escagleu-64k_ca.tsv: 包含 64091 句翻译成加泰罗尼亚语的句子。
- escagleu-64k_ca_va.tsv: 包含 64091 句适应成巴伦西亚加泰罗尼亚语的句子。
- escagleu-64k_es.tsv: 包含 64091 句西班牙语(真实)句子。
- escagleu-64k_gl.tsv: 包含 64091 句使用机器翻译成加利西亚语的句子。
- escagleu-64k_es.tsv: 包含 64091 句使用机器翻译成巴斯克语的句子。
此外,还提供了一个包含所有语言句子的 tsv 文件:
- escagleu-6k.tsv: 包含语料库中所有语言的句子。
数据分割
数据集包含一个单一分割。
数据集创建
源数据
原始句子为西班牙语,来自 西班牙 Common Voice 语料库。
初始数据收集和规范化
从 西班牙 Common Voice 语料库 v.07 提取了 223,261 句句子。通过自动选择,移除了以下句子:
- 重复的句子。
- 超过 14 个单词的句子。
- 以介词结尾的句子。
- 小写但超出词汇表(OOV)的句子,使用 Hunspell 字典。
- 包含重复单词的句子。
- 包含西班牙语中不存在的字符或字符序列的句子。
经过筛选过程,得到了当前选择的句子。对其中一些句子进行了手动或自动调整,如大写、标点修复等。
选定的句子由专业翻译公司从西班牙语翻译成加泰罗尼亚语,随后由阿利坎特大学的专家团队适应成巴伦西亚语。
同一语料库的句子使用 NOS-MT-OpenNMT-es-gl 翻译成加利西亚语,使用 itzuli 翻译成巴斯克语。
后续版本的语料库将包括经过审查的翻译和源句子。
个人和敏感信息
原始句子为西班牙语,来自 西班牙 Common Voice 语料库。据我们所知,没有私人个人的个人标识符或敏感信息。
使用数据的注意事项
数据集的社会影响
我们期望该语料库将有助于目标语言的语音技术发展。
偏见的讨论
我们意识到语料库中的一些句子可能传达刻板印象。尽管如此,我们没有采取任何步骤来减少其影响。
其他已知限制
加利西亚语和巴斯克语的翻译是通过机器翻译完成的,需要进行后期编辑。此外,我们发现了一些源句子中的错误。后续版本的语料库将包括经过审查的翻译和源句子。
附加信息
作者
- 自然语言处理和信息系统小组,数字智能中心(CENID,阿利坎特大学)
- 语言和政策部门(Eusko Jaurlaritza)
- HiTZ 中心 - Aholab,巴斯克大学 UPV/EHU
- 巴塞罗那超级计算中心(BSC)的语言技术部门(LangTech)
- Proxecto Nós(圣地亚哥德孔波斯特拉大学)
联系方式
如需进一步信息,请发送电子邮件至 langtech@bsc.es。
版权
版权所有 巴塞罗那超级计算中心的语言技术部门(2023)。
许可信息
该数据集可用于任何目的,无论是学术还是商业用途,根据 CC BY 4.0 许可条款。请适当注明出处,提供许可证链接,并指出是否进行了更改。



