Lipi-Ghor-bn-882-SSTT

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/Sanjidh090/Lipi-Ghor-bn-882-SSTT

下载链接

链接失效反馈

官方服务：

资源简介：

Lipi-Ghor（লিপিঘর，意为“文字之家”）是一个大规模孟加拉语语音数据集，专为自动语音识别（ASR）、说话人日志和口语研究设计。该数据集包含约882小时的音频，源自1,019个YouTube视频，涵盖596个独特频道。每个视频均经过说话人日志处理（使用pyannote-audio）并与孟加拉语字幕转录对齐，生成结构化的SSTT（说话人、语音、转录、时间戳）注释。数据集涵盖广泛的孟加拉语领域、语域和地区方言，是当前最丰富的开放孟加拉语语音资源之一。数据集由Team_Villagers在DL Sprint 4.0竞赛中创建，包含多种内容类别，如脱口秀、有声书、电影、播客等，并覆盖多种方言，包括标准达卡孟加拉语、吉大港语、锡尔赫特语等。数据集采用CC BY 4.0许可，适用于ASR模型训练、说话人日志研究、语音合成等任务。数据集结构包括音频片段、说话人日志结果和转录对齐文件，所有注释文件均以YouTube视频ID为基础命名。数据集存在一定的局限性，如转录质量不一、音频质量差异、说话人标签仅限视频内等，建议用户在使用时进行适当过滤和验证。

创建时间：

2026-02-22

原始信息汇总

Lipi-Ghor — Bengali Speech Dataset (bn-882-SSTT) 数据集概述

数据集基本信息

数据集名称: Lipi-Ghor — Bengali Speech Dataset (bn-882-SSTT)
语言: 孟加拉语 (bn)
许可协议: CC BY 4.0
规模类别: 1K<n<10K
任务类别: 自动语音识别、音频分类
标签: 孟加拉语、孟加拉语、语音、说话人日志、自动语音识别、低资源、SSTT、dl-sprint-4
创建团队: Team_Villagers (Sanjid Hasan, A H M Fuad, Risalat Labib, Bayazid Hasan)
所属竞赛: DL Sprint 4.0

数据集规模与构成

总音频时长（来源）: 约882小时
完全标注时长: 约856小时（说话人日志 + 转录）
待上传时长: 约194小时（约321个视频）
视频总数: 1,019个
独立频道数: 596个
音频格式: MP3（由pyannote分割）
标注格式: SSTT（说话人、语音、转录文本、时间戳）

数据来源与创建

来源数据: 来自YouTube的公开视频（带有孟加拉语字幕轨道）
数据处理流程:
1. 视频选择: 从596个孟加拉语频道收集YouTube视频ID，仅保留已有孟加拉语字幕轨道的视频。
2. 音频与转录提取: 使用yt-dlp下载音频（MP3）并提取孟加拉语字幕/字幕轨道。
3. 说话人日志: 使用pyannote-audio对每个音频文件进行说话人日志处理，将语音分割为说话人轮次并附上精确时间戳。
4. 对齐: 将YouTube转录文本与pyannote说话人片段对齐，生成SSTT格式的文件。

数据集内容与分类

内容类别分布（部分）

类别	视频数	时长（小时）
脱口秀	357	240.0
有声书	248	218.3
电影	31	67.3
播客	37	45.4
卡通	56	36.3
戏剧	20	19.9
伊斯兰教宣讲	20	16.2

方言覆盖

包括标准达卡孟加拉语、吉大港方言、锡尔赫特方言、朗布尔方言和巴里萨尔变体。

主要贡献频道（按时长）

频道	视频数	时长（小时）
My AudioBook	229	202.4
Roy Parrett	132	113.7
BanglaVision NEWS	144	97.3
Abhijit Story Zone	92	89.9
Audio Book Bangla by Faheem	71	87.0

数据集结构

Lipi-Ghor-bn-882-SSTT/ ├── data/ # 音频片段 (.mp3, pyannote分割) ├── diarization_results/ # 每个视频的说话人日志输出 (_output.json) ├── diarization_results_with_transcription/ # 说话人日志 + 转录对齐 (_unified.json) ├── diarization_transcription_final/ # 清理后的最终输出 (*_unified.json) └── test/ # 测试样本 (.wav)

文件命名约定

所有标注文件使用YouTube视频ID作为基础文件名：

{video_id}_output.json — 原始说话人日志输出
{video_id}_unified.json — 说话人日志与转录合并后的文件

标注格式（SSTT）

每个_unified.json包含一个片段数组： json [ { "speaker": "SPEAKER_00", "start": 12.34, "end": 18.72, "text": "আমরা আজকে এই বিষয়টি নিয়ে কথা বলব।" } ]

字段	类型	描述
`speaker`	字符串	说话人日志中的说话人标签
`start`	浮点数	片段开始时间（秒）
`end`	浮点数	片段结束时间（秒）
`text`	字符串	该片段的孟加拉语转录文本

主要用途

直接用途

孟加拉语ASR模型训练 — 用于微调Whisper、wav2vec2、MMS等模型。
说话人日志研究 — 孟加拉语的“谁在何时说话”任务。
孟加拉语TTS — 带有说话人标签的片段可为语音合成管道提供信息。
方言识别 — 数据集覆盖多种孟加拉语方言变体。
多语言NLP基准测试 — 孟加拉语在多语言基准测试中代表性不足。

超出范围的用途

监控或说话人重新识别 — 说话人标签（SPEAKER_00、SPEAKER_01等）仅针对每个视频本地化，不跨视频跟踪身份。
未经筛选的高风险生产ASR — 大多数转录文本来自YouTube自动生成的字幕，可能包含识别错误；在关键应用部署前建议进行人工验证。

限制与注意事项

转录质量参差不齐 — 86个视频具有人工验证的字幕；1,254个视频使用YouTube自动生成的字幕，可能包含识别错误。
音频质量各异 — 来源自多样化的YouTube内容；部分录音包含背景音乐、说话人重叠或伪影。
约194小时待上传 — 约321个视频已获取并进行了说话人日志处理，但尚未完全上传至本仓库。
说话人标签为本地标签 — SPEAKER_00、SPEAKER_01等仅为每个视频内的标签。不进行跨视频的说话人身份跟踪。
语码转换 — 部分内容包含孟加拉语-英语混合，这反映了实际使用情况，但可能影响单语ASR模型。
地域偏差 — 大部分内容源自达卡中心的媒体频道；农村和少数方言相对于其使用人口可能代表性不足。

引用信息

BibTeX

bibtex @dataset{lipighor2026, title = {Lipi-Ghor: A Large-Scale Bengali Speech Dataset with Speaker Diarization and Transcription}, author = {Hasan, Sanjid and Fuad, A. H. M. and Labib, Risalat and Hasan, Bayazid}, year = {2026}, publisher = {Hugging Face}, doi = {10.57967/hf/7877}, url = {https://huggingface.co/datasets/Sanjidh090/Lipi-Ghor-bn-882-SSTT}, note = {DL Sprint 4.0, Team Villagers} }

APA

Hasan, S., Fuad, A. H. M., Labib, R., & Hasan, B. (2025). Lipi-Ghor: A Large-Scale Bengali Speech Dataset with Speaker Diarization and Transcription [Dataset]. HuggingFace. https://huggingface.co/datasets/Sanjidh090/Lipi-Ghor-bn-882-SSTT

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，孟加拉语自动语音识别研究长期面临大规模标注数据的匮乏。Lipi-Ghor数据集的构建旨在填补这一空白，其核心流程始于从596个独立YouTube频道中精心筛选出1019个带有孟加拉语字幕轨道的公开视频。通过yt-dlp工具提取音频流与字幕文本后，研究团队采用先进的pyannote-audio系统进行说话人日志分析，精准分割出不同说话人的语音片段及其时间戳。最终，通过程序化对齐算法，将原始字幕与分割后的语音片段进行匹配，形成结构化的SSTT标注格式，从而构建出这个涵盖约882小时音频的多领域语料库。

使用方法

研究人员可利用Hugging Face的datasets库便捷加载此数据集，通过指定数据集路径与分割模式即可流式访问数据样本。该数据集主要应用于孟加拉语自动语音识别模型的训练与微调，尤其适合用于提升Whisper、wav2vec2等模型在低资源语言上的性能。其带有时序信息的说话人标签也为说话人日志、语音合成及方言识别等研究任务提供了关键支持。使用者需注意数据中转录文本的质量差异，建议根据研究目的对人工验证字幕与自动生成字幕进行区分使用，并在关键应用部署前进行充分的质量评估。

背景与挑战

背景概述

在低资源语言自动语音识别研究领域，孟加拉语作为全球超过两亿三千万人口使用的语言，长期以来面临公开语音数据稀缺的困境。Lipi-Ghor数据集由Team_Villagers团队于DL Sprint 4.0竞赛期间创建，旨在构建大规模、多领域、具备说话人分割标注的孟加拉语语音语料库。该数据集通过整合约882小时的YouTube视频音频，覆盖谈话节目、有声书、电影等十余种内容类别，并采用SSTT标注框架，为孟加拉语语音识别、说话人日志及方言研究提供了关键基础设施。其出现显著缓解了该语言在语音技术发展中数据不足的核心瓶颈，推动了相关领域研究的实质性进展。

当前挑战

该数据集致力于解决孟加拉语自动语音识别与说话人日志任务中的资源匮乏挑战，其构建过程面临多重困难。在领域问题层面，孟加拉语方言变体丰富，如吉大港语、锡尔赫特语等区域性变体在语音特征上存在显著差异，对模型的泛化能力构成严峻考验；同时，真实场景音频常包含背景音乐、多人重叠对话及孟英代码转换现象，增加了语音分割与识别的复杂性。在数据构建过程中，转录质量依赖YouTube自动生成字幕，其中包含大量识别错误，需设计精细的对齐与清洗流程；说话人标注仅限视频内部，缺乏跨视频身份追踪，限制了说话人识别研究的深度；此外，数据源主要集中于达卡地区媒体渠道，可能导致乡村及少数方言代表性不足的地理偏差。

常用场景

经典使用场景

在孟加拉语自动语音识别（ASR）领域，Lipi-Ghor数据集凭借其约882小时的大规模、多领域语音语料，成为训练和评估ASR模型的经典资源。该数据集覆盖了谈话节目、有声读物、电影、播客等多种内容类型，并包含说话人日志和精确的时间戳对齐，为研究者提供了丰富的真实世界语音样本。其SSTT（说话人、语音、转录、时间戳）标注格式特别适用于端到端的语音识别模型训练，如对Whisper、wav2vec2等先进模型进行微调，以提升其在孟加拉语上的识别准确性和鲁棒性。

解决学术问题

该数据集有效解决了孟加拉语作为低资源语言在语音技术研究中的关键瓶颈。长期以来，公开可用的孟加拉语语音数据规模有限且缺乏多样性，制约了ASR、说话人日志及方言识别等领域的发展。Lipi-Ghor通过整合大规模、多方言（如达卡标准语、吉大港语、锡尔赫特语等）的真实语音，并辅以自动化与人工转录相结合的标注，为学术界提供了检验模型在复杂声学环境和语言变体下性能的基准。其存在显著促进了低资源语言语音技术的公平性研究，缩小了技术发展的语言鸿沟。

实际应用

在实际应用层面，Lipi-Ghor数据集为开发面向孟加拉语用户的智能语音产品奠定了数据基础。基于该数据集训练的模型可应用于语音助手、实时字幕生成、会议记录转写、有声内容检索等场景。其包含的说话人日志信息还能支持多说话人场景下的语音分离与身份追踪，适用于在线教育、媒体内容分析和客户服务热线的话者分析。此外，数据集涵盖的多种方言变体有助于构建更具包容性的语音技术，服务于孟加拉国及印度西孟加拉邦等广阔地区的多样化人口。

数据集最近研究