laion/eurospeech-enhanced-dacvae
收藏Hugging Face2026-05-02 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/laion/eurospeech-enhanced-dacvae
下载链接
链接失效反馈官方服务:
资源简介:
EuroSpeech是一个欧洲议会演讲数据集,已转换为DAC VAE潜在表示。数据集采用WebDataset tar分片格式存储,每个样本包含原始音频(FLAC格式)、DAC VAE潜在表示(numpy float32格式)和元数据(JSON格式)。支持多种语言,包括英语、德语等,并提供了详细的元数据字段和加载方法。DAC VAE潜在表示的形状为[T_latent, 128],潜在帧率为25帧/秒。数据集主要用于自动语音识别和文本转语音任务。
EuroSpeech is a dataset of European parliamentary speeches converted to DAC VAE latents. The dataset is stored in WebDataset tar shards, with each sample containing original audio (FLAC format), DAC VAE latent representation (numpy float32 format), and metadata (JSON format). It supports multiple languages including English, German, etc., and provides detailed metadata fields and loading methods. The DAC VAE latent representation has a shape of [T_latent, 128] with a latent rate of 25 frames/second. The dataset is primarily used for automatic speech recognition and text-to-speech tasks.
提供机构:
laion
原始信息汇总
数据集概述:EuroSpeech 议会语音 DAC VAE 潜在表示
| 属性 | 内容 |
|---|---|
| 数据集名称 | EuroSpeech Enhanced DACVAE |
| 维护组织 | LAION e.V. |
| 许可证 | CC-BY-4.0 |
| 数据集规模 | 1M - 10M 样本 |
| 总文件大小 | 4.31 TB |
| 格式 | WebDataset(tar 分片) |
| 最近下载量 | 18,068 次/月 |
任务与模态
- 任务:自动语音识别(ASR)、文本转语音(TTS)
- 模态:音频、文本
数据来源
原始数据源自 disco-eth/EuroSpeech 数据集,为议会语音数据。
数据格式
每个 tar 分片(约 2GB)包含以下三个文件:
| 文件 | 格式 | 说明 |
|---|---|---|
{sample_key}.audio.flac |
FLAC | 原始音频(原始采样率) |
{sample_key}.dacvae.npy |
NumPy float32 | DAC VAE 潜在表示,形状 [T_latent, 128] |
{sample_key}.metadata.json |
JSON | 元数据及 duration_seconds、chars_per_second |
DAC VAE 潜在表示详情
- 模型:mrfakename/dacvae-watermarked(Facebook DACVAE)
- 输入采样率:48,000 Hz
- 潜在形状:
[T_latent, 128],其中T_latent = ceil(audio_samples / 1920) - 潜在帧率:25 帧/秒
- 存储格式:NumPy float32
分片命名规则
{LANG}-{split}-{index:05d}.tar
例如:EN-train-00000.tar、DE-train-00001.tar
数据集状态
- 已上传分片数量:2026
各语言样本数量
| 语言 | 样本数 |
|---|---|
| BG_train(保加利亚语) | 106,464 |
| DA_train(丹麦语) | 1,901,464 |
| DE_train(德语) | 624,064 |
| EN_train(英语) | 1,772,626 |
| FI_train(芬兰语) | 67,424 |
| HR_train(克罗地亚语) | 1,920,560 |
| IT_train(意大利语) | 658,660 |
| LT_train(立陶宛语) | 631,549 |
| LV_train(拉脱维亚语) | 198,016 |
| MT_train(马耳他语) | 305,571 |
| NO_train(挪威语) | 1,813,323 |
| PT_train(葡萄牙语) | 780,468 |
| SR_train(塞尔维亚语) | 289,064 |
| SV_train(瑞典语) | 3,008 |
元数据字段
每个 metadata.json 文件包含:
dataset:来源数据集名称language:语言代码split:数据划分(train/dev/test)sample_id:原始样本标识符text:转录文本duration_seconds:音频时长(秒)chars_per_second:每秒音频对应的文本字符数original_sample_rate:原始音频采样率dacvae_sample_rate:DAC VAE 输入采样率(48000)latent_frames:潜在时间帧数- 所有原始数据集专属字段
搜集汇总
数据集介绍

构建方式
EuroSpeech-enhanced-dacvae数据集源自欧洲议会多语言语音语料库,通过先进的神经音频编码技术重构而成。原始音频数据经过统一重采样至48kHz后,采用Facebook开发的DAC VAE模型进行特征提取,生成具有时间序列结构的潜在表示。每个样本被封装为包含原始音频、潜在向量及元数据的三位一体格式,并采用WebDataset分片存储架构,最终形成1984个标准化数据分片,涵盖14种欧洲语言的议会演讲内容。
特点
该数据集的核心特征在于其多模态融合的表示形式,既保留原始音频波形,又包含高压缩比的神经编码潜在空间。潜在向量以每秒25帧的时序结构组织,维度为128,在保持语音细节的同时显著降低存储需求。数据集覆盖保加利亚语、德语、英语等14种欧洲语言,每个样本均附带精确的文本转录、时长统计及字符速率等元数据,为跨语言语音研究提供结构化基础。分片式存储设计支持流式加载,兼顾大规模数据处理效率与灵活性。
使用方法
研究者可通过WebDataset库直接加载分片数据,实现音频、潜在向量与元数据的同步获取。潜在向量可通过专用解码器重建为48kHz音频,为语音合成与转换任务提供端到端实验平台。数据集适用于自动语音识别、跨语言语音合成及语音表示学习等领域,其标准化接口支持与主流深度学习框架无缝集成。多语言平行语料特性尤其适合开展语音翻译模型训练与语言适应性研究。
背景与挑战
背景概述
EuroSpeech-enhanced-dacvae数据集源于欧洲议会多语言语音语料库的深度结构化处理,由disco-eth研究团队于近期构建完成。该数据集的核心研究问题聚焦于如何将原始语音信号高效转化为高保真度的隐空间表示,以推动语音合成与识别任务的统一建模范式。通过引入Facebook DACVAE模型,将48kHz采样率的原始音频编码为25帧/秒的128维隐向量序列,显著降低了数据存储与传输开销,同时保留了语音的语义与声学特征。这一技术路径为跨语言语音处理研究提供了标准化、可扩展的数据基础,对多模态人工智能系统的演进具有实质性贡献。
当前挑战
在语音表示学习领域,如何平衡隐空间压缩率与语音重建质量始终是核心难题。EuroSpeech-enhanced-dacvae需解决原始音频中方言变异、背景噪声与发言人声学特性交织带来的表征模糊性问题。数据集构建过程中面临多语言语音对齐的技术挑战,包括不同语种韵律结构的编码一致性、隐变量时序帧率的标准化适配,以及海量多语言元数据的结构化整合。此外,隐空间表示的可解释性与下游任务适配性仍需深入探索,以验证其在端到端语音系统中的应用潜力。
常用场景
经典使用场景
在语音处理领域,eurospeech-enhanced-dacvae数据集以其多语言议会演讲的丰富语料和高效编码表示,成为语音合成与识别模型训练的理想资源。该数据集通过DAC VAE潜空间编码技术,将原始音频转换为紧凑的潜在向量序列,显著降低了存储与计算开销,使得研究者能够在大规模多语言语音数据上高效开展端到端的声学建模实验,尤其适用于探索跨语言语音表示的迁移学习与统一建模框架。
实际应用
在实际应用中,eurospeech-enhanced-dacvae数据集支撑了多语言语音助手、实时语音翻译系统及议会辩论自动转录工具的研发。其涵盖的十余种欧洲语言的高质量演讲数据,为商业与政务场景下的语音交互系统提供了丰富的训练素材,通过潜空间的高效编码,显著提升了云端语音服务的响应速度与部署灵活性,推动了智能语音技术在跨国交流与公共服务中的落地。
衍生相关工作
基于该数据集衍生的经典工作主要集中在跨语言语音合成与识别模型的创新上,例如利用其潜表示进行零样本语音转换的研究,以及构建多语言统一声学模型的开源项目。这些工作不仅验证了DAC VAE潜空间在语音任务中的泛化能力,还催生了新一代端到端语音处理框架,为语音人工智能的标准化与规模化发展奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



