IWSLT2026-Low-resource Speech Translation Track: Catalan-English Parallel Corpus

github2026-02-06 更新2026-02-09 收录

下载链接：

https://github.com/rjzevallos/IWSLT_2026_Catalan_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

加泰罗尼亚语（català）是一种西罗曼语，约有410万母语使用者和超过1000万的使用者分布在各个地区。该语言主要在西班牙的加泰罗尼亚、瓦伦西亚社区、巴利阿里群岛和阿拉贡部分地区使用，同时也是安道尔的唯一官方语言。此外，加泰罗尼亚语还在法国南部（北加泰罗尼亚）和意大利撒丁岛的阿尔盖罗市使用。在加泰罗尼亚、瓦伦西亚社区和巴利阿里群岛，加泰罗尼亚语与西班牙语同为官方语言，并广泛用于教育、媒体和公共管理。该数据集是为IWSLT 2026加泰罗尼亚语-英语翻译任务创建的合成平行语料库，数据来源于Mozilla Common Voice的前15小时加泰罗尼亚语音数据（11.87小时用于训练，5.15小时用于验证），并通过Helsinki-NLP/opus-mt-ca-en工具将其翻译成英语以创建对齐的文本对。

Catalan (català) is a Western Romance language with approximately 4.1 million native speakers and over 10 million total speakers across various regions. It is primarily used in Catalonia, the Valencian Community, the Balearic Islands, and parts of Aragon in Spain, and serves as the sole official language of Andorra. Additionally, Catalan is also spoken in southern France (Northern Catalonia) and Alghero, Sardinia, Italy. In Catalonia, the Valencian Community and the Balearic Islands, Catalan shares official language status with Spanish, and is widely used in education, media and public administration. This dataset is a synthetic parallel corpus created for the IWSLT 2026 Catalan-English translation task. The source data is derived from the first 15 hours of Catalan speech data in Mozilla Common Voice, with 11.87 hours allocated for training and 5.15 hours for validation. These data were translated into English using the Helsinki-NLP/opus-mt-ca-en tool to generate aligned text pairs.

创建时间：

2026-02-06

原始信息汇总

IWSLT 2026 加泰罗尼亚语-英语平行语料库数据集概述

数据集基本信息

数据集名称: IWSLT2026-Low-resource Speech Translation Track: Catalan-English Parallel Corpus
语言对: 加泰罗尼亚语 (Catalan) - 英语 (English)
创建目的: 为IWSLT 2026加泰罗尼亚语-英语翻译任务创建。
语料类型: 合成的平行语料库。

数据来源与构建方法

原始语音数据: 取自Mozilla Common Voice项目的前约15小时加泰罗尼亚语语音数据。
数据划分:
- 训练集: 11.87小时
- 验证集: 5.15小时
合成翻译方法: 使用Helsinki-NLP/opus-mt-ca-en模型将加泰罗尼亚语文本自动翻译成英语，以创建对齐的文本对。

数据格式与加载

数据格式: Arrow文件。
文件结构:
- 训练集: train/data-00000-of-00001.arrow
- 验证集: val/data-00000-of-00001.arrow
加载示例: python BASE = "/path/to/ca_en_synthetic_translation" data_files = { "train": f"{BASE}/train/data-00000-of-00001.arrow", "validation": f"{BASE}/val/data-00000-of-00001.arrow", } dataset = load_dataset("arrow", data_files=data_files)

背景信息

加泰罗尼亚语简介: 加泰罗尼亚语是一种西罗曼语，拥有约410万母语使用者，在其分布地区有超过1000万人能说该语言。主要使用地区包括西班牙的加泰罗尼亚、瓦伦西亚自治区、巴利阿里群岛和阿拉贡的部分地区，以及安道尔（唯一官方语言）。此外，在法国南部（北加泰罗尼亚）和意大利撒丁岛的阿尔盖罗市也有使用。
语言地位: 在加泰罗尼亚、瓦伦西亚自治区和巴利阿里群岛，加泰罗尼亚语与西班牙语同为官方语言，广泛用于教育、媒体和公共行政。它在多个欧洲地区被认可为地区性或少数民族语言，其ISO 639-1代码为ca。

评估方法

可使用两种广泛采用的翻译指标进行评估：BLEU和ChrF++。

作者

Rodolfo Zevallos (Barcelona Supercomputing Center)
Marc Casals i Salvador (Barcelona Supercomputing Center)
Guillermo Cámbara Ruiz (Universitat Pompeu Fabra)
John Ortega (Northeastern University)
Fabrício Carraro (Barcelona Supercomputing Center)

许可证

本作品采用知识共享署名-非商业性使用-禁止演绎 3.0 未移植许可协议进行许可。

参考文献

Ardila, R., Branson, M., Davis, K., Henretty, M., Kohler, M., Meyer, J., Morais, R., Saunders, L., Tyers, F. M., & Weber, G. (2019, December 13). Common Voice: A Massively-Multilingual Speech Corpus. arXiv.Org. https://arxiv.org/abs/1912.06670v2
Gibert, O. de, Attieh, J., Vahtola, T., Aulamo, M., Li, Z., Vázquez, R., Hu, T., & Tiedemann, J. (2025). Scaling Low-Resource MT via Synthetic Data Generation with LLMs (arXiv:2505.14423). arXiv. https://doi.org/10.48550/arXiv.2505.14423

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，构建高质量的平行语料库是推动机器翻译技术发展的关键。IWSLT2026低资源语音翻译赛道中的加泰罗尼亚语-英语平行语料库，其构建过程体现了创新性与实用性。该数据集源自Mozilla Common Voice项目中的加泰罗尼亚语语音数据，选取了约15小时的语音片段，其中训练集占11.87小时，验证集占5.15小时。这些语音数据经过转录后，利用Helsinki-NLP团队开发的opus-mt-ca-en机器翻译模型，将加泰罗尼亚语文本自动翻译为英语，从而生成对齐的文本对。这种合成翻译方法有效克服了低资源语言平行数据稀缺的挑战，为后续模型训练提供了可靠的基础。

使用方法

研究人员可通过标准化流程便捷地使用该数据集进行模型训练与评估。数据集以Apache Arrow格式存储，用户需指定本地存储路径，通过Hugging Face的load_dataset函数加载训练集和验证集文件。在模型开发阶段，可利用该平行语料训练神经机器翻译系统，特别适用于探索低资源场景下的翻译性能提升策略。评估环节推荐采用BLEU和ChrF++两种广泛认可的机器翻译评价指标，确保结果的可比性与科学性。整个使用流程兼顾了易用性与学术严谨性，为参与IWSLT2026竞赛及相关研究的学者提供了完整的技术支持框架。

背景与挑战

背景概述

加泰罗尼亚语作为一种拥有约410万母语使用者的西罗曼语，在西班牙加泰罗尼亚、瓦伦西亚自治区、巴利阿里群岛以及安道尔等地具有重要的文化与行政地位。然而，在语音翻译研究领域，加泰罗尼亚语属于资源稀缺语言，缺乏大规模高质量的平行语料库，这严重制约了相关自然语言处理技术的发展。为此，巴塞罗那超级计算中心等机构的研究人员于2026年国际口语翻译研讨会（IWSLT）框架下，构建了加泰罗尼亚语-英语平行语料库。该数据集基于Mozilla Common Voice中约15小时的加泰罗尼亚语语音数据，通过Helsinki-NLP的opus-mt-ca-en模型进行合成翻译，生成了对齐的文本对，旨在推动低资源语言语音翻译任务的模型训练与评估。

当前挑战

该数据集致力于解决低资源语言语音翻译的核心难题，即如何在训练数据有限的情况下提升机器翻译的准确性与鲁棒性。构建过程中面临多重挑战：首先，源语音数据规模较小，仅从Common Voice中提取约15小时语料，可能导致模型过拟合或泛化能力不足；其次，合成翻译依赖现有的神经机器翻译模型，其翻译质量与潜在偏差会直接影响生成文本对的可靠性；此外，加泰罗尼亚语方言变体丰富，语音数据的地域与说话人多样性不足，可能无法全面覆盖语言的实际使用场景。这些因素共同构成了数据集在数据稀缺性、合成质量与语言代表性方面的显著挑战。

常用场景

经典使用场景

在低资源语音翻译研究领域，IWSLT2026加泰罗尼亚语-英语平行语料库为探索合成数据在机器翻译中的应用提供了典型范例。该数据集通过将Mozilla Common Voice中的加泰罗尼亚语语音数据转换为文本，并利用预训练模型生成对齐的英语翻译，构建了高质量的平行语料。研究人员常用此数据集训练和评估端到端语音翻译系统，特别是在资源稀缺的语言对上，以验证合成数据在提升翻译性能方面的有效性，推动低资源语言技术的前沿探索。

解决学术问题

该数据集主要应对低资源语言机器翻译中数据匮乏的核心挑战。加泰罗尼亚语虽拥有数百万使用者，但高质量平行语料相对有限，制约了传统监督学习方法的发展。通过合成技术生成大规模对齐文本，该资源为研究数据增强、迁移学习及少样本学习提供了实验基础，有助于突破资源瓶颈，促进语言技术的公平性与包容性，对保护语言多样性及推动多语言信息处理具有重要学术意义。

实际应用

在实际应用中，该数据集支持开发面向加泰罗尼亚语社区的语音翻译工具，如实时会议转录、教育辅助系统及多媒体内容本地化。在加泰罗尼亚、瓦伦西亚等地区，此类技术可促进公共服务的双语支持，增强媒体传播的可及性，并助力文化遗产的数字化保存。同时，它为企业和机构提供了低成本构建定制化翻译模型的可行路径，推动语言技术在区域经济与社会发展中的落地。

数据集最近研究