five

projecte-aina/escagleu-64k

收藏
Hugging Face2026-03-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/escagleu-64k
下载链接
链接失效反馈
官方服务:
资源简介:
escagleu-64k是一个包含64091个句子在内的平行语料库,这些句子在西班牙语、加泰罗尼亚语、瓦伦西亚加泰罗尼亚语、加利西亚语和巴斯克语之间进行了翻译。原始句子为西班牙语,来源于西班牙Common Voice语料库。该语料库的创建旨在利用Common Voice平台建立西班牙语、加泰罗尼亚语、加利西亚语和巴斯克语之间的平行语音数据集,用于训练语音识别和语音转语音翻译模型。警告:加利西亚语和巴斯克语的翻译是通过机器翻译完成的,需要后期编辑。此外,源句子中已经发现了一些错误。后续版本将包括经过审核的翻译和源句子。

escagleu-64k is a parallel corpus comprising 64,091 sentences translated among Spanish, Catalan, Valencian Catalan, Galician, and Basque. The original sentences are in Spanish and come from the Spanish Common Voice Corpus. This corpus was created to establish a parallel speech dataset among these languages using the Common Voice platform for training Speech-to-Text and Speech-to-Speech translation models. Warning: The translation into Galician and Basque was done through machine translation and requires post-editing. Additionally, some errors have been identified in the source sentences. A subsequent version of the corpus will include reviewed translations and source sentences.
提供机构:
projecte-aina
原始信息汇总

数据集卡片 for escagleu-64K 语料库

数据集描述

数据集摘要

escagleu-64k 是一个包含 64091 句子的平行语料库,涵盖西班牙语、加泰罗尼亚语、巴伦西亚加泰罗尼亚语、加利西亚语和巴斯克语。原始句子为西班牙语,来自 西班牙 Common Voice 语料库

支持的任务和排行榜

该数据集可用于训练机器翻译(MT)模型、语音到文本翻译模型和语音到语音翻译模型。

语言

该多语言数据集包括西班牙语(es)、加泰罗尼亚语(ca)、巴伦西亚加泰罗尼亚语(ca-va)、加利西亚语(gl)和巴斯克语(eu)。

数据集结构

提供了五个独立的 tsv 文件,句子按相同顺序排列:

  • escagleu-64k_ca.tsv: 包含 64091 句翻译成加泰罗尼亚语的句子。
  • escagleu-64k_ca_va.tsv: 包含 64091 句适应成巴伦西亚加泰罗尼亚语的句子。
  • escagleu-64k_es.tsv: 包含 64091 句西班牙语(真实)句子。
  • escagleu-64k_gl.tsv: 包含 64091 句使用机器翻译成加利西亚语的句子。
  • escagleu-64k_es.tsv: 包含 64091 句使用机器翻译成巴斯克语的句子。

此外,还提供了一个包含所有语言句子的 tsv 文件:

  • escagleu-6k.tsv: 包含语料库中所有语言的句子。

数据分割

数据集包含一个单一分割。

数据集创建

源数据

原始句子为西班牙语,来自 西班牙 Common Voice 语料库

初始数据收集和规范化

西班牙 Common Voice 语料库 v.07 提取了 223,261 句句子。通过自动选择,移除了以下句子:

  • 重复的句子。
  • 超过 14 个单词的句子。
  • 以介词结尾的句子。
  • 小写但超出词汇表(OOV)的句子,使用 Hunspell 字典。
  • 包含重复单词的句子。
  • 包含西班牙语中不存在的字符或字符序列的句子。

经过筛选过程,得到了当前选择的句子。对其中一些句子进行了手动或自动调整,如大写、标点修复等。

选定的句子由专业翻译公司从西班牙语翻译成加泰罗尼亚语,随后由阿利坎特大学的专家团队适应成巴伦西亚语。

同一语料库的句子使用 NOS-MT-OpenNMT-es-gl 翻译成加利西亚语,使用 itzuli 翻译成巴斯克语。

后续版本的语料库将包括经过审查的翻译和源句子。

个人和敏感信息

原始句子为西班牙语,来自 西班牙 Common Voice 语料库。据我们所知,没有私人个人的个人标识符或敏感信息。

使用数据的注意事项

数据集的社会影响

我们期望该语料库将有助于目标语言的语音技术发展。

偏见的讨论

我们意识到语料库中的一些句子可能传达刻板印象。尽管如此,我们没有采取任何步骤来减少其影响。

其他已知限制

加利西亚语和巴斯克语的翻译是通过机器翻译完成的,需要进行后期编辑。此外,我们发现了一些源句子中的错误。后续版本的语料库将包括经过审查的翻译和源句子。

附加信息

作者

  • 自然语言处理和信息系统小组,数字智能中心(CENID,阿利坎特大学)
  • 语言和政策部门(Eusko Jaurlaritza)
  • HiTZ 中心 - Aholab,巴斯克大学 UPV/EHU
  • 巴塞罗那超级计算中心(BSC)的语言技术部门(LangTech)
  • Proxecto Nós(圣地亚哥德孔波斯特拉大学)

联系方式

如需进一步信息,请发送电子邮件至 langtech@bsc.es。

版权

版权所有 巴塞罗那超级计算中心的语言技术部门(2023)。

许可信息

该数据集可用于任何目的,无论是学术还是商业用途,根据 CC BY 4.0 许可条款。请适当注明出处,提供许可证链接,并指出是否进行了更改。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作