five

tj-solergibert/Europarl-ST

收藏
Hugging Face2023-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tj-solergibert/Europarl-ST
下载链接
链接失效反馈
官方服务:
资源简介:
Europarl-ST是一个多语言语音翻译语料库,包含了2008年至2012年间欧洲议会辩论的音频-文本配对样本。该数据集支持多种语言,包括西班牙语、德语、英语、法语、荷兰语、波兰语、葡萄牙语、罗马尼亚语和意大利语。数据集结构包括原始音频、音频语言、音频路径、片段开始和结束时间以及不同语言的转录文本。数据集分为训练集、验证集和测试集,分别包含116138、17538和18901个样本。数据集的构建工作遵循CC BY-NC 4.0许可。

Europarl-ST is a multilingual speech translation corpus containing paired audio-text samples from European Parliament debates between 2008 and 2012. It supports multiple languages including Spanish, German, English, French, Dutch, Polish, Portuguese, Romanian and Italian. The dataset structure includes raw audio, audio language, audio path, segment start and end timestamps, as well as transcribed texts in different languages. The dataset is split into training, validation and test sets, which contain 116138, 17538 and 18901 samples respectively. The construction of this dataset adheres to the CC BY-NC 4.0 license.
提供机构:
tj-solergibert
原始信息汇总

数据集卡片 for "Europarl-ST"

数据集描述

数据集概要

Europarl-ST 是一个多语言语音翻译语料库,包含用于语音翻译的配对音频-文本样本,构建使用了2008年至2012年间在欧洲议会进行的辩论。

语言

西班牙语、德语、英语、法语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、意大利语

数据集结构

数据字段

  • original_speech: 原始录音中的语音。
  • original_language: 音频的语言。
  • audio_path: 音频文件的路径。
  • segment_start: 语音开始的时间(秒)。
  • segment_end: 语音结束的时间(秒)。
  • transcriptions: 包含不同语言转录的词典。

数据分割

  • 训练集: 116138 样本
  • 验证集: 17538 样本
  • 测试集: 18901 样本

训练集(小时):

src/tgt en fr de it es pt pl ro nl
en - 81 83 80 81 81 79 72 80
fr 32 - 21 20 21 22 20 18 22
de 30 18 - 17 18 18 17 17 18
it 37 21 21 - 21 21 21 19 20
es 22 14 14 14 - 14 13 12 13
pt 15 10 10 10 10 - 9 9 9
pl 28 18 18 17 18 18 - 16 18
ro 24 12 12 12 12 12 12 - 12
nl 7 5 5 4 5 4 4 4 -

验证/测试集都在3到6小时之间。

附加信息

许可信息

  • Europarl-ST 语料库的构建工作在 Creative Commons Attribution-NonCommercial 4.0 International 许可证 (CC BY-NC 4.0) 下发布。
  • 数据的所有权属于欧洲联盟和各自的版权持有者。

引用信息

如果您在研究中使用该语料库,请引用以下参考文献:

@INPROCEEDINGS{jairsan2020a, author={J. {Iranzo-Sánchez} and J. A. {Silvestre-Cerdà} and J. {Jorge} and N. {Roselló} and A. {Giménez} and A. {Sanchis} and J. {Civera} and A. {Juan}}, booktitle={ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={Europarl-ST: A Multilingual Corpus for Speech Translation of Parliamentary Debates}, year={2020}, pages={8229-8233}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在语音翻译研究领域,Europarl-ST数据集的构建体现了对多语言语音资源的系统性整合。该数据集源自2008年至2012年间欧洲议会的真实辩论录音,通过专业流程将原始语音分割为片段,并辅以多语言人工转录。每个语音片段均标注起始与结束时间,并对应九种官方语言的文本翻译,确保了语音与文本在时序与语义层面的精确对齐,为跨语言语音处理提供了高质量的平行语料基础。
特点
Europarl-ST数据集的核心特点在于其广泛的多语言覆盖与严谨的结构化设计。该数据集涵盖西班牙语、德语、英语、法语、荷兰语、波兰语、葡萄牙语、罗马尼亚语及意大利语九种语言,每种语言均提供语音片段及其对应转录文本。数据以标准化的字段组织,包括原始语音路径、语言标签、时间戳及多语言转录词典,支持从语音识别到语音翻译的多任务研究。其训练、验证与测试集的合理划分,进一步保障了模型评估的可靠性与泛化能力。
使用方法
在语音与自然语言处理研究中,Europarl-ST数据集为多语言语音翻译任务提供了直接的应用支持。研究者可通过加载数据集获取语音文件路径及对应多语言文本,利用音频时间戳提取语音片段,并结合转录文本进行端到端语音翻译模型训练。数据集支持跨语言配对实验,例如从英语语音到德语文本的翻译,也可用于多语言语音识别、语音合成等衍生任务。其标准化的数据分割便于模型在训练集上学习,并在验证集与测试集上进行性能评估与比较。
背景与挑战
背景概述
在语音翻译技术迅猛发展的背景下,多语言语音翻译数据集的构建成为推动该领域进步的关键。Europarl-ST数据集由瓦伦西亚理工大学多媒体语言处理研究组于2020年创建,其核心研究问题聚焦于如何利用欧洲议会2008年至2012年的辩论录音,构建一个涵盖九种语言的大规模语音翻译平行语料库。该数据集不仅为端到端语音翻译模型提供了宝贵的训练资源,还显著促进了多语言语音处理技术的标准化与评估,对国际语音翻译研究产生了深远影响。
当前挑战
Europarl-ST数据集所解决的领域问题在于多语言语音翻译,其挑战体现在语音信号的复杂性与多语言对齐的精确性上。语音翻译需克服口音变异、背景噪声及语速差异等声学特性带来的识别困难,同时确保跨语言语义的准确传递。在构建过程中,研究人员面临从原始议会录音中分割对齐语音片段、生成高质量多语言文本转录,以及处理不同语言间数据平衡与版权合规等多重挑战,这些因素共同增加了数据集构建的技术与法律复杂度。
常用场景
经典使用场景
在语音翻译研究领域,Europarl-ST数据集凭借其多语言对齐的语音与文本配对,成为端到端语音翻译模型训练与评估的经典资源。该数据集源自欧洲议会的真实辩论录音,涵盖了九种欧洲语言,为研究者提供了丰富的跨语言语音信号与对应转录文本,常用于构建从源语言语音直接生成目标语言文本的神经网络模型,推动了语音翻译技术从级联式向一体化架构的演进。
衍生相关工作
围绕Europarl-ST数据集,衍生了一系列经典研究工作,例如在ICASSP等顶级会议上发表的端到端语音翻译模型架构探索。这些工作利用该数据集的多语言特性,推动了诸如语音翻译预训练、多任务学习以及零样本跨语言迁移等前沿方向的发展,为后续如mBART、XLS-R等大规模多语言模型的训练与评估提供了重要基准。
数据集最近研究
最新研究方向
在语音翻译领域,Europarl-ST数据集作为多语言议会辩论语料库,正推动着端到端语音翻译模型的创新研究。前沿探索聚焦于利用其丰富的多语言对齐语音与文本,开发能够直接转换语音到目标语言文本的神经网络架构,减少传统级联系统中的错误传播。同时,该数据集支持零样本和少样本跨语言迁移学习的研究,助力模型在资源稀缺语言对上提升性能。随着欧盟多语言交流需求的增长,此类研究对于促进实时多语言沟通技术具有重要影响,为构建更高效、准确的自动翻译系统提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作