Lipi-Ghor-bn-882-SSTT
收藏Lipi-Ghor — Bengali Speech Dataset (bn-882-SSTT) 数据集概述
数据集基本信息
- 数据集名称: Lipi-Ghor — Bengali Speech Dataset (bn-882-SSTT)
- 语言: 孟加拉语 (
bn) - 许可协议: CC BY 4.0
- 规模类别: 1K<n<10K
- 任务类别: 自动语音识别、音频分类
- 标签: 孟加拉语、孟加拉语、语音、说话人日志、自动语音识别、低资源、SSTT、dl-sprint-4
- 创建团队: Team_Villagers (Sanjid Hasan, A H M Fuad, Risalat Labib, Bayazid Hasan)
- 所属竞赛: DL Sprint 4.0
数据集规模与构成
- 总音频时长(来源): 约882小时
- 完全标注时长: 约856小时(说话人日志 + 转录)
- 待上传时长: 约194小时(约321个视频)
- 视频总数: 1,019个
- 独立频道数: 596个
- 音频格式: MP3(由pyannote分割)
- 标注格式: SSTT(说话人、语音、转录文本、时间戳)
数据来源与创建
- 来源数据: 来自YouTube的公开视频(带有孟加拉语字幕轨道)
- 数据处理流程:
- 视频选择: 从596个孟加拉语频道收集YouTube视频ID,仅保留已有孟加拉语字幕轨道的视频。
- 音频与转录提取: 使用
yt-dlp下载音频(MP3)并提取孟加拉语字幕/字幕轨道。 - 说话人日志: 使用
pyannote-audio对每个音频文件进行说话人日志处理,将语音分割为说话人轮次并附上精确时间戳。 - 对齐: 将YouTube转录文本与pyannote说话人片段对齐,生成SSTT格式的文件。
数据集内容与分类
内容类别分布(部分)
| 类别 | 视频数 | 时长(小时) |
|---|---|---|
| 脱口秀 | 357 | 240.0 |
| 有声书 | 248 | 218.3 |
| 电影 | 31 | 67.3 |
| 播客 | 37 | 45.4 |
| 卡通 | 56 | 36.3 |
| 戏剧 | 20 | 19.9 |
| 伊斯兰教宣讲 | 20 | 16.2 |
方言覆盖
包括标准达卡孟加拉语、吉大港方言、锡尔赫特方言、朗布尔方言和巴里萨尔变体。
主要贡献频道(按时长)
| 频道 | 视频数 | 时长(小时) |
|---|---|---|
| My AudioBook | 229 | 202.4 |
| Roy Parrett | 132 | 113.7 |
| BanglaVision NEWS | 144 | 97.3 |
| Abhijit Story Zone | 92 | 89.9 |
| Audio Book Bangla by Faheem | 71 | 87.0 |
数据集结构
Lipi-Ghor-bn-882-SSTT/ ├── data/ # 音频片段 (.mp3, pyannote分割) ├── diarization_results/ # 每个视频的说话人日志输出 (_output.json) ├── diarization_results_with_transcription/ # 说话人日志 + 转录对齐 (_unified.json) ├── diarization_transcription_final/ # 清理后的最终输出 (*_unified.json) └── test/ # 测试样本 (.wav)
文件命名约定
所有标注文件使用YouTube视频ID作为基础文件名:
{video_id}_output.json— 原始说话人日志输出{video_id}_unified.json— 说话人日志与转录合并后的文件
标注格式(SSTT)
每个_unified.json包含一个片段数组:
json
[
{
"speaker": "SPEAKER_00",
"start": 12.34,
"end": 18.72,
"text": "আমরা আজকে এই বিষয়টি নিয়ে কথা বলব।"
}
]
| 字段 | 类型 | 描述 |
|---|---|---|
speaker |
字符串 | 说话人日志中的说话人标签 |
start |
浮点数 | 片段开始时间(秒) |
end |
浮点数 | 片段结束时间(秒) |
text |
字符串 | 该片段的孟加拉语转录文本 |
主要用途
直接用途
- 孟加拉语ASR模型训练 — 用于微调Whisper、wav2vec2、MMS等模型。
- 说话人日志研究 — 孟加拉语的“谁在何时说话”任务。
- 孟加拉语TTS — 带有说话人标签的片段可为语音合成管道提供信息。
- 方言识别 — 数据集覆盖多种孟加拉语方言变体。
- 多语言NLP基准测试 — 孟加拉语在多语言基准测试中代表性不足。
超出范围的用途
- 监控或说话人重新识别 — 说话人标签(
SPEAKER_00、SPEAKER_01等)仅针对每个视频本地化,不跨视频跟踪身份。 - 未经筛选的高风险生产ASR — 大多数转录文本来自YouTube自动生成的字幕,可能包含识别错误;在关键应用部署前建议进行人工验证。
限制与注意事项
- 转录质量参差不齐 — 86个视频具有人工验证的字幕;1,254个视频使用YouTube自动生成的字幕,可能包含识别错误。
- 音频质量各异 — 来源自多样化的YouTube内容;部分录音包含背景音乐、说话人重叠或伪影。
- 约194小时待上传 — 约321个视频已获取并进行了说话人日志处理,但尚未完全上传至本仓库。
- 说话人标签为本地标签 —
SPEAKER_00、SPEAKER_01等仅为每个视频内的标签。不进行跨视频的说话人身份跟踪。 - 语码转换 — 部分内容包含孟加拉语-英语混合,这反映了实际使用情况,但可能影响单语ASR模型。
- 地域偏差 — 大部分内容源自达卡中心的媒体频道;农村和少数方言相对于其使用人口可能代表性不足。
引用信息
BibTeX
bibtex @dataset{lipighor2026, title = {Lipi-Ghor: A Large-Scale Bengali Speech Dataset with Speaker Diarization and Transcription}, author = {Hasan, Sanjid and Fuad, A. H. M. and Labib, Risalat and Hasan, Bayazid}, year = {2026}, publisher = {Hugging Face}, doi = {10.57967/hf/7877}, url = {https://huggingface.co/datasets/Sanjidh090/Lipi-Ghor-bn-882-SSTT}, note = {DL Sprint 4.0, Team Villagers} }
APA
Hasan, S., Fuad, A. H. M., Labib, R., & Hasan, B. (2025). Lipi-Ghor: A Large-Scale Bengali Speech Dataset with Speaker Diarization and Transcription [Dataset]. HuggingFace. https://huggingface.co/datasets/Sanjidh090/Lipi-Ghor-bn-882-SSTT



