jilijeanlouis/babel-lid

Name: jilijeanlouis/babel-lid
Creator: jilijeanlouis
Published: 2026-04-10 14:05:31
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/jilijeanlouis/babel-lid

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en - fr - de - es license: cc-by-4.0 task_categories: - audio-classification task_ids: - language-identification pretty_name: Babel-LID Pilot size_categories: - 100K<n<1M tags: - language-identification - multilingual - speech - telephony - robustness - open-source dataset_info: features: - name: segment_id dtype: string - name: language dtype: string - name: source_language dtype: string - name: duration_block dtype: string - name: duration_seconds dtype: float64 - name: robustness_tier dtype: string - name: channel_mode dtype: string - name: confidence dtype: string - name: source_dataset dtype: string - name: source_id dtype: string - name: audio_path dtype: string - name: start_sample dtype: int64 - name: end_sample dtype: int64 splits: - name: train num_examples: 236544 - name: validation num_examples: 51936 - name: test num_examples: 50848 configs: - config_name: default data_files: - split: train path: data/train-*.parquet - split: validation path: data/validation-*.parquet - split: test path: data/test-*.parquet --- # Babel-LID (Pilot — Metadata Only) **Open-source multi-duration language identification dataset with acoustic robustness tiers.** Pilot release: 4 languages (en, fr, de, es), 339,328 metadata rows. Real pipeline applied end-to-end on Modal. > **Note**: This release contains only the metadata (parquets). The 84,816 augmented WAV files (4 tiers × 2 channels × ~10K source files) are stored on the Modal Volume `babel-lid-v2` and will be added in a subsequent release once the upload pipeline is optimized. ## Stats | Metric | Value | |--------|-------| | Languages | 4 (en, fr, de, es) | | Source audios | 10,825 (LibriSpeech + MLS) | | Verified annotations | 10,604 | | Augmented WAV files | 84,816 (stored on Modal) | | Metadata rows | 339,328 | | Train / Val / Test | 236,544 / 51,936 / 50,848 | ## Real Pipeline (all on Modal) 1. **Stage 1** — Download real speech from LibriSpeech (en) + MLS (fr, de, es) 2. **Stage 2** — Whisper large-v3 transcription verification (A10G GPU) 3. **Stage 3** — 3-model LID ensemble: Whisper + ECAPA-TDNN + MMS-LID-256 (A100 GPU) - 92% high-confidence (3/3 unanimous) - 5.6% medium-confidence (2/3) - 2.2% rejected 4. **Stage 3b** — Linguistic cross-verification via Whisper ASR confidence 5. **Stage 4** — Acoustic augmentation: 4 tiers × 2 channels = 8 variants per source 6. **Stage 5** — Duration block metadata: D1/D3/D5/D10 ## Augmentation Tiers | Tier | Augmentation | Details | |------|-------------|---------| | T0 | Clean | Original audio, 16kHz mono | | T1 | Additive noise | White noise at SNR 5–15 dB | | T2 | Reverb | Synthetic RIR, RT60 0.3–0.8s | | T3 | Multi-distortion | Reverb + noise SNR 0–10 dB | | C0 | Wideband | Full 16kHz bandwidth | | C1 | PSTN telephony | 300–3400 Hz bandpass → 8kHz → μ-law G.711 → 50Hz hum → 16kHz | ## License CC-BY 4.0

提供机构：

jilijeanlouis

搜集汇总

数据集介绍

构建方式

Babel-LID数据集的构建基于一套完全在Modal平台上运行的端到端流水线。首先，从LibriSpeech（英语）与Multilingual LibriSpeech（法语、德语、西班牙语）中下载真实语音片段，经由Whisper large-v3模型进行转录验证以确保语言标注的准确性。随后，采用由Whisper、ECAPA-TDNN和MMS-LID-256组成的三模型集成系统进行语言识别，通过一致性投票生成高、中、低置信度标签，并剔除低质量样本。在此基础上，对通过验证的音频施加四类声学扰动——清洁、加性噪声、混响及多重失真，并结合宽带与PSTN电话信道模拟，最终构建出包含多时长分段的多样化语音语料库。

特点

该数据集的核心特色在于其多维度的鲁棒性设计。通过引入四层声学增强层级（T0至T3）与两种信道模式（宽带与电话窄带），每个原始音频片段被扩展为八种变体，从而模拟真实世界中噪声、混响及传输损耗等复杂环境。此外，数据集提供了多种持续时长分段（D1、D3、D5、D10），支持对时变语音信号的灵活分析。元数据中详细记录了置信度等级、源数据集、音频路径及样本起止点，为语言识别模型的鲁棒性评估和可控实验提供了坚实的数据基础。

使用方法

使用者可通过HuggingFace Datasets库加载当前发布的元数据文件（Parquet格式），其训练、验证与测试集分别包含236,544、51,936及50,848条记录。数据包含segment_id、language、robustness_tier、channel_mode等关键字段，便于按条件筛选所需样本。当前版本仅提供元数据，对应的84,816个增强WAV音频文件存储在Modal Volume上，待后续发布优化后即可通过特定路径访问。用户可参照论文中的流程复现语言识别实验，亦可自定义采样策略以探索不同噪声和信道条件下的模型表现。

背景与挑战

背景概述

语言识别作为语音处理领域的基础任务，在智能交互与多语言信息服务中扮演着关键角色。然而，现有数据集多聚焦于纯净语音环境，难以应对实际应用中的声学变异性与信道退化问题。Babel-LID数据集由研究团队于近期创建，以公开可用的LibriSpeech与多语言语音数据集（MLS）为原始素材，经过严格的多模型集成验证与声学增强处理，构建了一个包含英语、法语、德语和西班牙语的语种识别基准。该数据集特别引入了声学鲁棒性分层设计，模拟从纯净语音到电话信道降质等真实场景，为评估语种识别系统的泛化能力提供了标准化测试平台。其公开许可与开源管线极大地推动了语音技术领域的可复现研究。

当前挑战

语种识别面临的本质挑战在于跨信道与跨噪声环境下的特征鲁棒性。Babel-LID通过设计四层声学退化等级（纯净、加性噪声、混响、复合失真）与两种信道模式（宽带与PSTN电话窄带），系统性地量化了这些干扰因素对识别性能的影响。数据构建过程中，研究者需应对弱标注语音源的语言标签验证难题，为此提出三模型集成投票机制（Whisper、ECAPA-TDNN、MMS-LID-256），并辅以Whisper的ASR置信度进行语言交叉校验，实现了92%的高置信度标注。此外，多时长切分（D1至D10）与数据量的平衡，以及大规模增强音频的存储与分发优化，均为构建过程中的关键技术挑战。

常用场景

经典使用场景

在语音处理与自然语言理解的交叉领域中，语种识别（Language Identification, LID）是构建多语言语音系统的基石。Babel-LID数据集专为此任务设计，提供了涵盖英语、法语、德语和西班牙语的真实对话语料，并创新性地引入了多时长语音片段（如1秒、3秒、5秒、10秒）以及精心设计的鲁棒性层级（清洁、加性噪声、混响、多重失真）。这使得该数据集成为训练和评估能够在复杂声学环境中准确判别语种的模型之理想选择，尤其适用于研究短时语音片段下的语种鉴别能力。

解决学术问题

Babel-LID数据集针对学术研究中长期存在的两大痛点提供了有力解决方案：其一是真实世界语音系统在噪声、混响等条件下的脆弱性，其二是模型对短时语音片段（如<5秒）的判别稳定性不足。通过提供包含四种鲁棒性层级（T0至T3）和两种信道模式（宽带与PSTN电话信道）的精细标注数据，该数据集使得研究者能够系统性地剖析并改善模型在不同退化条件下的泛化能力，从而推动了鲁棒语种识别理论的深化与应用边界的拓展。

衍生相关工作

该数据集的发布催生了一系列富有启发性的后续研究方向。基于其三模型集成标注流程（Whisper、ECAPA-TDNN与MMS-LID-256），研究者们开始探索更高效的模型蒸馏与协同训练范式，以降低部署成本。同时，其公开的语音增强与失真管线（如合成混响、G.711编码）已被后续工作借鉴用于构建更具挑战性的鲁棒性测试基准。此外，围绕其元数据中置信度分层的设计，衍生出关于标签噪声建模与半监督学习在语种识别中应用的新探讨，进一步拓展了该领域的学术版图。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集