translated-german-english-asr-v2
收藏Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/aman4014/translated-german-english-asr-v2
下载链接
链接失效反馈官方服务:
资源简介:
Multilingual Multitask German-English ASR & Speech Translation Dataset v2 是一个多语言多任务语音数据集,专为语音模型(如 Whisper Turbo v3)的多语言多任务训练而设计。该数据集支持四种任务:德语和英语的自动语音识别(ASR)转录以及语音翻译。数据集包含多个分割,分别针对德语和英语,数据来源包括 MLS、CV19、Emilia、EuroSpeech、Tuda、Thorsten、M-AILABS(德语)和 LibriSpeech(英语)。所有分割共享相同的结构,包含音频(16kHz)、原始语言转录文本和目标语言翻译文本。德语分割的转录为德语文本,翻译为英语文本;英语分割的转录为英语文本,翻译为德语文本(通过 Helsinki-NLP/opus-mt-en-de 生成)。数据集适用于自动语音识别和语音翻译任务,适用于研究和商业用途(需遵守各数据源的许可条款)。
创建时间:
2026-05-06
原始信息汇总
数据集概述:Multilingual Multitask German-English ASR & Speech Translation Dataset v2
基本信息
- 名称:Multilingual Multitask German-English ASR & Speech Translation Dataset v2
- 数据集地址:https://huggingface.co/datasets/aman4014/translated-german-english-asr-v2
- 任务类别:自动语音识别(ASR)、翻译
- 语言:德语(de)、英语(en)
- 数据规模:1M < n < 10M 条样本
- 标签:german, english, speech, asr, translation, multilingual, multitask, whisper, speech-translation, librispeech, common-voice
- 版本说明:本数据集是 translated-german-english-asr v1 的升级版本,专为多语言多任务语音模型(如 Whisper Turbo v3)训练设计。
任务与统一架构
数据集支持四种任务,使用统一的列结构:
| 输入音频 | 任务 | 预测列 | 语言方向 |
|---|---|---|---|
| 德语音频 | ASR 转录 | transcription |
DE → DE |
| 德语音频 | 语音翻译 | translation |
DE → EN |
| 英语音频 | ASR 转录 | transcription |
EN → EN |
| 英语音频 | 语音翻译 | translation |
EN → DE |
数据划分
德语数据划分
| 划分 | 语言 | 音频来源 | 大约数量 |
|---|---|---|---|
train |
德语 | MLS, CV19, Emilia, EuroSpeech, Tuda, Thorsten, M-AILABS | ~3.17M |
validation |
德语 | (从上述来源采样) | ~175K |
test |
德语 | (从上述来源采样) | ~175K |
英语数据划分
| 划分 | 语言 | 音频来源 | 大约数量 |
|---|---|---|---|
english_train |
英语 | LibriSpeech (960小时) | ~281K |
english_validation |
英语 | LibriSpeech dev 集合 | ~5.6K |
english_test |
英语 | LibriSpeech test 集合 | ~5.6K |
数据列结构
所有划分共享相同的列:
| 列名 | 类型 | 描述 |
|---|---|---|
audio |
Audio (16kHz) | 语音波形 |
transcription |
string | 原始语言转录文本 |
translation |
string | 另一种语言的翻译文本 |
列含义说明
德语划分(train, validation, test):
transcription= 德语文本translation= 英语翻译文本
英语划分(english_*):
transcription= 英语文本translation= 德语翻译文本(通过 Helsinki-NLP/opus-mt-en-de 模型生成)
数据来源
德语数据来源
所有德语数据来自 translated-german-english-asr v1,具体来源包括:
- Mozilla Common Voice 19 (DE) — CC0
- Multilingual LibriSpeech (DE) — CC BY 4.0
- Emilia-YODAS (DE) — CC BY 4.0
- Tuda-De — CC BY 4.0
- EuroSpeech (DE Parliament) — 按议会开放访问
- Thorsten-Voice — CC0
- M-AILABS de_DE_kerstin — BSD-3-Clause
英语数据来源
英语音频来自 LibriSpeech ASR(CC BY 4.0),德语翻译使用 Helsinki-NLP/opus-mt-en-de(MarianMT,CC BY 4.0)生成。
许可证
该数据集为混合许可证。各来源中最严格的许可证适用于整体数据集:
- ✅ 研究用途:所有划分均可自由使用
- ✅ 商业用途:需按各来源条款核查(CC0/CC-BY-4.0 通常允许)
- ⚠️ EuroSpeech:需核查各国议会的条款
- 需对 CC BY 4.0 来源进行署名
引用信息
bibtex @dataset{translated_german_english_asr_v2, author = {aman4014}, title = {Multilingual Multitask German-English ASR & Speech Translation Dataset v2}, year = {2026}, url = {https://huggingface.co/datasets/aman4014/translated-german-english-asr-v2} }
请同时引用 v1 数据集卡片中列出的原始来源数据集(https://huggingface.co/datasets/aman4014/translated-german-english-asr)。
搜集汇总
数据集介绍

构建方式
该数据集为多语言多任务德语-英语语音识别与翻译数据集第二版,在统一架构下整合了四大任务:德语语音转录、德语语音翻译为英语、英语语音转录以及英语语音翻译为德语。数据集构建基于两大声学来源:德语部分汇聚了Mozilla Common Voice 19、Multilingual LibriSpeech、Emilia-YODAS、Tuda-De、EuroSpeech、Thorsten-Voice及M-AILABS七大语料库,共计约317万条训练样本;英语部分则源自LibriSpeech ASR的960小时语料,其德语翻译由Helsinki-NLP/opus-mt-en-de模型自动生成,确保跨语言对齐的精确性。所有音频均以16kHz采样率标准化处理,并保留原始转录与对应翻译字段,形成统一的列式架构。
特点
该数据集的核心特点在于其多任务协同设计的灵活性。每一段音频均同时携带转录与翻译两列标注,支持ASR与语音翻译在同一数据集内无缝切换训练。德语与英语两大分区的独立设置(如german_train、english_train)使研究者能够自由选择单语或多语混合训练策略。数据集规模庞大,德语部分提供约317万条训练样本,英语部分约28万条,测试与验证集各约17.5万及5600条,足以支撑大规模多任务模型的预训练与微调。此外,数据来源涵盖多种真实场景(如议会演讲、有声书、社区语音),增强了模型在噪声与口音变化下的鲁棒性。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,使用load_dataset('aman4014/translated-german-english-asr-v2', split='train')获取德语分区,或指定split='english_train'获取英语分区。每个样本包含audio(波形)、transcription(源语言转录)及translation(目标语言翻译)三个字段,适用于多种训练框架。例如,在Whisper等模型中,可直接将audio字段用于ASR任务,预测transcription;或将audio与translation配对进行语音翻译训练。用户亦可按需合并德语与英语分区,构建多语言联合训练流水线。需注意不同数据源具有差异化的许可证条件(如CC0、CC BY 4.0),商用前应逐一核实各自条款。
背景与挑战
背景概述
该数据集由研究者aman4014于2026年发布,旨在为德语与英语的双向自动语音识别与语音翻译任务提供统一的训练基准。随着多语言、多任务语音模型(如Whisper Turbo v3)的兴起,现有数据集往往仅聚焦单一任务或语种,难以满足模型对跨语言、跨任务能力的联合学习需求。该数据集通过整合德语侧来自Mozilla Common Voice、Multilingual LibriSpeech、Emilia-YODAS等七个公开语料库的约317万条音频,以及英语侧来自LibriSpeech 960小时的近28万条音频,构建了涵盖四种任务模式的统一架构:德语语音转录、德语到英语语音翻译、英语语音转录、英语到德语语音翻译。这一设计填补了德语-英语方向多任务联合训练数据集的空白,为语音模型在跨语言理解与生成能力上的综合评估提供了重要资源。
当前挑战
该数据集所解决的核心领域挑战在于,传统的语音数据集通常仅支持单一语言或单一任务,限制了多任务模型在语音识别与语音翻译间的泛化能力,尤其是在德语-英语这对存在显著语法与音系差异的语言组合上。构建过程中面临的挑战主要包括:德语数据来自多个许可协议各异(如CC0、CC BY 4.0、议会开放许可等)的语料库,需逐一审核合规性并协调统一的发布许可;英语侧的德语翻译由机器翻译模型(Helsinki-NLP/opus-mt-en-de)自动生成,其翻译质量可能引入噪声,影响语音翻译任务的标注可靠性;此外,不同语料库的采样率、背景噪声与说话风格差异显著,需在保持16kHz统一音频格式的前提下,确保跨源数据的模态一致性,以避免模型在训练中对特定数据源产生过拟合。
常用场景
经典使用场景
该数据集专为跨语言与跨任务的联合训练而设计,最经典的使用场景是同时支持德语和英语的自动语音识别(ASR)以及语音翻译(ST)。具体而言,研究者可利用其统一的数据架构,在德语音频上进行德语转写或德译英的语音翻译,同时在英语音频上进行英语转写或英译德的语音翻译,从而在一个框架内轻松实现多语言、多任务的模型训练与评估。
解决学术问题
该数据集有效解决了跨语言语音表征学习中的关键学术难题,即如何在不损失单一任务性能的前提下,构建一个能够同时处理语音识别与语音翻译的统一模型。通过整合来自多个开源语料库的高质量德语与英语音频,并提供标准化的转写与翻译标注,它极大地推动了多任务学习、知识迁移以及低资源语言建模等方向的深入研究,为构建更通用、更鲁棒的语音理解系统奠定了坚实的数据基础。
衍生相关工作
基于该数据集,学术界与工业界衍生出了多项经典工作,包括但不限于针对Whisper等大规模预训练模型的微调策略研究,以及探索共享编码器与解耦解码器结构的多任务学习架构。此外,还催生了将对比学习与自监督预训练相结合来提升跨语言泛化能力的方法论,以及用于评估模型在德英双向语音-文本映射上弱语言迁移效果的基准测试,极大地丰富了多语言语音理解领域的研究范式。
以上内容由遇见数据集搜集并总结生成



