Lipi-Ghor-882

Name: Lipi-Ghor-882
Creator: 库尔纳工程技术大学; 孟加拉国工程技术大学
Published: 2026-02-26 22:59:24
License: 暂无描述

arXiv2026-02-26 更新2026-02-28 收录

下载链接：

https://huggingface.co/datasets/Sanjidh090/Lipi-Ghor-bn-882-SSTT

下载链接

链接失效反馈

官方服务：

资源简介：

Lipi-Ghor-882是由孟加拉国工程技术大学团队构建的882小时多说话者孟加拉语数据集，旨在解决长音频自动语音识别和说话人日志化的资源匮乏问题。该数据集通过YouTube采集了涵盖150多个领域的1,019个视频，使用yt-dlp库提取文本转录，并采用Pyannote API进行说话人边界标注。数据经过严格的时间对齐和声学降噪处理，特别适用于低资源场景下的语音处理研究，为孟加拉语会话AI提供了重要基准资源。

Lipi-Ghor-882 is an 882-hour multi-speaker Bengali dataset constructed by the team from Bangladesh University of Engineering and Technology, which is designed to address the resource scarcity challenges in long-form automatic speech recognition and speaker diarization. This dataset comprises 1,019 videos covering over 150 domains sourced from YouTube, where text transcripts are extracted using the yt-dlp library, and speaker boundary annotations are carried out via the Pyannote API. The dataset has undergone rigorous time alignment and acoustic noise reduction processing, making it particularly well-suited for speech processing research in low-resource scenarios, and serving as a critical benchmark resource for Bengali conversational AI.

提供机构：

库尔纳工程技术大学; 孟加拉国工程技术大学

创建时间：

2026-02-26

原始信息汇总

Lipi-Ghor — Bengali Speech Dataset (bn-882-SSTT) 数据集概述

数据集基本信息

数据集名称: Lipi-Ghor — Bengali Speech Dataset (bn-882-SSTT)
创建者: Team_Villagers (Sanjid Hasan, A H M Fuad, Risalat Labib, Bayazid Hasan)
创建背景: 作为 DL Sprint 4.0 的一部分构建。
语言: 孟加拉语/ Bangla (bn)
许可证: CC BY 4.0
任务类别: 自动语音识别、音频分类
标签: 孟加拉语、语音、说话人日志、低资源、SSTT、dl-sprint-4

数据集规模与构成

总音频时长（已获取）: 约 882 小时
完全标注时长: 约 856 小时（说话人日志 + 转录）
待上传时长: 约 194 小时（约 321 个视频）
视频总数: 1,019 个
独立频道数: 596 个
音频格式: MP3（经 pyannote 分割）
标注格式: SSTT（说话人、语音、转录、时间戳）

数据来源与处理

源数据: 来自 YouTube 的公开视频（带有孟加拉语字幕轨道）。
数据处理流程:
1. 视频选择: 从 596 个孟加拉语频道收集 YouTube 视频 ID，仅保留已有孟加拉语字幕轨道的视频。
2. 音频与转录提取: 使用 yt-dlp 下载音频（MP3）并提取孟加拉语字幕/字幕轨道。
3. 说话人日志: 使用 pyannote-audio 对每个音频文件进行说话人日志处理，生成带精确时间戳的说话人轮次片段。
4. 对齐: 将 YouTube 转录与 pyannote 说话人片段对齐，生成 SSTT 格式文件。

数据集内容与类别

内容覆盖: 涵盖广泛的孟加拉语口语领域、语域和地区方言，包括标准达卡孟加拉语、吉大港语、锡尔赫特语、朗布尔语和巴里萨尔语变体。
主要类别（部分）:
- 脱口秀: 357 个视频，240.0 小时
- 有声书: 248 个视频，218.3 小时
- 电影: 31 个视频，67.3 小时
- 播客: 37 个视频，45.4 小时
- 卡通: 56 个视频，36.3 小时

数据集结构

Lipi-Ghor-bn-882-SSTT/ ├── data/ # 音频片段 (.mp3) ├── diarization_results/ # 每个视频的日志输出 (_output.json) ├── diarization_results_with_transcription/ # 日志 + 转录对齐 (_unified.json) ├── diarization_transcription_final/ # 清理后的最终输出 (*_unified.json) └── test/ # 测试样本 (.wav)

文件命名约定: 所有标注文件使用 YouTube 视频 ID 作为基础文件名。
标注格式 (SSTT): 每个 _unified.json 包含一个片段数组，每个片段包含 speaker（说话人标签）、start（开始时间）、end（结束时间）、text（孟加拉语转录）字段。

主要用途

直接用途:
- 孟加拉语 ASR 模型训练（微调 Whisper, wav2vec2, MMS 等模型）
- 说话人日志研究
- 孟加拉语 TTS
- 方言识别
- 多语言 NLP 基准测试
超出范围的用途:
- 监控或说话人重新识别（说话人标签仅限于每个视频内部）
- 未经筛选的高风险生产 ASR（多数转录源自 YouTube 自动生成字幕，可能存在识别错误）

局限性与注意事项

转录质量不一: 86 个视频含有人工验证字幕；1,254 个视频使用 YouTube 自动生成字幕，可能存在识别错误。
音频质量不一: 源自有声 YouTube 内容，部分录音包含背景音乐、说话人重叠或伪影。
说话人标签是局部的: 说话人标签（如 SPEAKER_00）仅在同一视频内有效，不跨视频追踪说话人身份。
地理偏差: 大部分内容源自达卡中心的媒体频道，农村和少数方言的代表性可能不足。
代码转换: 部分内容包含孟加拉语-英语混合，反映了真实使用情况，但可能影响单语 ASR 模型。

引用信息

BibTeX: 见 README 文件。
APA: Hasan, S., Fuad, A. H. M., Labib, R., & Hasan, B. (2025). Lipi-Ghor: A Large-Scale Bengali Speech Dataset with Speaker Diarization and Transcription [Dataset]. HuggingFace. https://huggingface.co/datasets/Sanjidh090/Lipi-Ghor-bn-882-SSTT

数据集卡片作者与致谢

作者: Team_Villagers — DL Sprint 4.0 (Sanjid Hasan, A H M Fuad, Risalat Labib, Bayazid Hasan)
致谢: yt-dlp、pyannote-audio、所有孟加拉语内容创作者、DL Sprint 4.0 组织者。

搜集汇总

数据集介绍

构建方式

在孟加拉语自动语音识别与说话人日志领域，长期缺乏大规模、多说话人且时间对齐的音频数据集。为填补这一空白，Lipi-Ghor-882数据集通过系统化方法构建而成。研究团队利用yt-dlp工具从YouTube平台收集了涵盖150多个领域的多样化长、中、短音频内容，总计约882小时。随后，采用当前先进的Pyannote API进行说话人边界检测，并将生成的时间标注与从视频中提取的转录文本进行精细对齐与融合，最终形成了包含856小时标注音频的标准化SSTT格式数据集。

特点

该数据集的核心特点在于其规模性与复杂性。作为目前最大的孟加拉语多说话人语音数据集之一，它包含了来自596个独立频道的1019个视频，确保了内容的广泛代表性。数据集专门针对长音频处理与说话人日志任务设计，音频时长分布多样，模拟了真实世界中的对话场景。其标注不仅提供了精确的语音转录，还包含了说话人身份的时间边界信息，为联合优化语音识别与说话人日志任务提供了不可或缺的多模态基础。

使用方法

Lipi-Ghor-882数据集主要服务于低资源语言的长音频处理研究。在自动语音识别方面，研究表明直接进行大规模数据训练效果有限，更有效的方法是在一个完美对齐的小规模数据子集上进行针对性微调，并引入合成噪声与混响进行声学退化增强，以迫使模型学习深层语音特征。对于说话人日志任务，预训练模型的直接应用或微调收效甚微，关键在于采用启发式后处理算法，如强制说话人间隔、合并同一说话人的微片段以及严格缓解重叠。该数据集为开发高效、实用的端到端孟加拉语对话处理系统提供了基准测试平台。

背景与挑战

背景概述

在低资源语言自动语音处理领域，孟加拉语的长时音频识别与说话人日志任务长期面临数据稀缺的困境。为填补这一空白，研究团队于2026年DL Sprint 4.0竞赛期间推出了Lipi-Ghor-882数据集，该数据集由来自596个YouTube频道的1019段音频构成，总时长约882小时，覆盖超过150个领域类别。核心研究问题聚焦于如何在高噪声、多说话人场景下实现精准的语音转写与说话人分割，其发布为孟加拉语对话式人工智能的发展奠定了实证基础。

当前挑战

该数据集旨在解决长时孟加拉语语音的自动识别与说话人日志联合优化问题，其构建过程面临多重挑战。在领域层面，现有开源模型如Diarizen在此类复杂音频上表现不佳，而传统的数据扩增与模型微调策略收效甚微，迫使研究者转向启发式后处理算法以提升日志准确率。在数据构建环节，多源音频的转录质量参差不齐，说话人边界标注依赖Pyannote API自动生成，需与语音片段进行精细对齐，这一过程对时序标注的精度提出了极高要求。

常用场景

经典使用场景

在孟加拉语语音处理领域，长时音频的自动语音识别与说话人日志化长期面临数据稀缺的挑战。Lipi-Ghor-882数据集通过提供882小时的多说话人标注音频，成为评估和优化长时孟加拉语ASR与说话人日志化模型的经典基准。该数据集特别适用于测试模型在真实复杂场景下的鲁棒性，例如处理包含背景噪声、混响及多说话人交替的对话音频，为研究者提供了系统比较不同架构性能的标准化平台。

衍生相关工作

围绕Lipi-Ghor-882数据集，已衍生出一系列具有影响力的研究工作。例如，基于该数据集的噪声增强训练范式催生了针对低资源语言的鲁棒性ASR方法创新；在说话人日志化方面，启发式后处理算法的成功应用推动了纯模型优化向算法-模型混合策略的范式转变。此外，该数据集作为核心评估基准，支撑了如Bengali-Loop等社区倡议的对比研究，并促进了Pyannote、Faster-Whisper等开源工具在孟加拉语场景下的适配与性能提升，形成了持续迭代的研究生态。

数据集最近研究