urdu-turn-detection-audio-v2

Hugging Face2025-12-20 更新2025-12-21 收录

下载链接：

https://huggingface.co/datasets/PuristanLabs1/urdu-turn-detection-audio-v2

下载链接

链接失效反馈

官方服务：

资源简介：

这是**Urdu Turn Detector**的官方数据集，是一个高精度、低延迟的系统，用于检测乌尔都语语音中对话轮次的结束。数据集包含**11,479个音频片段**（在“完整”和“不完整”之间平衡），专门设计用于训练实时语音AI应用（如“智能轮次”或“打断”检测）的鲁棒模型。数据集的创建过程涉及多阶段流程，包括人工验证的乌尔都语文本、合成对话生成和高级声学增强。核心文本语料库包含10,000个样本，来源于2,825个人工验证的乌尔都语句子和7,175个由**Google Gemini 2.5 Flash Lite**生成的合成样本。数据集覆盖日常生活、新闻、正式请求和随意的“自言自语”场景，语言为100%乌尔都语脚本（Nastaliq/阿拉伯语）。声学实现部分使用高质量的乌尔都语TTS端点将文本转换为音频，每个句子转换为16kHz单声道`.wav`文件。为了模拟真实世界的语音，数据集还实施了负采样和截断策略，以及合成沉默和思考噪声的注入，以防止模型在暂停时误触发轮次结束。数据集以WebDataset格式存储，包含元数据和标签。

This is the official dataset for **Urdu Turn Detector**, a high-accuracy, low-latency system for detecting the end of conversational turns in Urdu speech. The dataset contains **11,479 audio clips**, balanced between "complete" and "incomplete" turn cases, and is specifically designed to train robust models for real-time speech AI applications such as "turn-taking" or "interruption" detection. The dataset was constructed via a multi-stage workflow, including manually validated Urdu text, synthetic dialogue generation, and advanced acoustic augmentation. The core text corpus comprises 10,000 samples, sourced from 2,825 manually verified Urdu sentences and 7,175 synthetic samples generated by **Google Gemini 2.5 Flash Lite**. The dataset covers scenarios including daily life, news, formal requests, and casual "self-talk", with all text written in the full Urdu script (Nastaliq/Arabic script). For audio rendering, high-quality Urdu TTS endpoints were used to convert text to audio, with each sentence converted into a 16kHz mono `.wav` file. To simulate real-world speech environments, the dataset also adopts negative sampling and truncation strategies, alongside the injection of synthetic silence and thinking noise to prevent the model from falsely triggering turn-end detection during pauses. The dataset is stored in WebDataset format, including both metadata and labels.

创建时间：

2025-12-20

原始信息汇总

Urdu Turn Detection (Audio Dataset V2) 数据集概述

数据集基本信息

数据集名称: Urdu Turn Detection (Audio Dataset V2)
主要用途: 训练用于检测乌尔都语对话中话轮结束的鲁棒模型，适用于实时语音AI应用，如“智能话轮”或“抢断”检测。
语言: 乌尔都语
许可协议: MIT
任务类别: 音频分类
标签: 乌尔都语，话轮检测，语音活动检测，对话式AI，话轮结束，智能话轮，音频，数据集

数据集内容与规模

音频片段总数: 11,479个
标签与平衡性:
- 0: INCOMPLETE (不完整): 4,940个片段 (43%)
- 1: COMPLETE (完整): 6,539个片段 (57%)
音频格式: 16kHz采样率，单声道WAV / PCM_16格式
平均持续时间: 约2.5秒
存储格式: WebDataset格式 (TAR分片)，便于流式传输。

数据构建流程

核心文本语料库 (10,000个样本):
- 来源: 2,825个经过人工验证的乌尔都语句子 (黄金标准) 与7,175个由Google Gemini 2.5 Flash Lite生成的合成样本相结合。
- 多样性: 涵盖日常生活、新闻、正式请求和随意的“自言自语”场景。
- 语言: 100%乌尔都语脚本 (Nastaliq/阿拉伯文)，严格过滤以移除英语或罗马化乌尔都语。
声学实现:
- 使用高质量的乌尔都语TTS端点将文本转换为音频。
- 每个句子被转换为16kHz单声道.wav文件。
负样本采样与截断:
- 完整片段 (标签1): 播放至自然结束的句子。
- 截断片段 (标签0): 在语义边界处 (例如，在“میں...”或“اگر وہ...”之后停止) 被中途切断的句子，以迫使模型学习非终端声音的韵律和语音线索。
V2版本升级 (修复“静默偏置”):
- 静默注入: 添加了1,500多个纯静默片段 (能量各异)，标记为不完整 (0)。
- 策略性截断: 在语义边界处截断句子以创建负样本。
- 思考噪音: 注入“hmmm”和“uhh”等填充词，确保模型不会因为说话者正在思考而触发话轮结束。纯静默和“思考噪音”均标记为不完整 (0)。
- 填充掩码: 所有音频都填充至3.0秒，并生成明确的attention_mask以教导模型忽略非语音片段。
- Gemini 2.5增强: 生成合成对话以拓宽标准文本语料库之外的语言多样性。

数据集结构

数据集以TAR分片形式存储，每个分片内的样本包含：

XXXX.wav: 音频片段。
XXXX.txt: 乌尔都语转录文本。
XXXX.cls: 标签 (0或1)。
另包含一个metadata.csv文件用于组合元数据。

使用说明

依赖安装 (Windows用户特别注意)

Python包: 需安装datasets、librosa和torchcodec库。
FFmpeg (Windows必需): 需安装FFmpeg以支持torchcodec解码音频数据。可通过Chocolatey安装或从https://www.gyan.dev/ffmpeg/builds/ 手动下载并配置系统路径。

加载数据集

流式模式 (推荐):
- 无需下载整个存档即可按需获取音频数据。
- 使用load_dataset函数并设置streaming=True。
完整下载模式:
- 下载整个数据集以供离线训练。
- 使用load_dataset函数加载。

致谢与来源

策划方: PuristanLabs (https://huggingface.co/PuristanLabs1)。
基础音频: Common Voice 13 (乌尔都语子集) 及自定义TTS。
数据增强: 通过Google Gemini 2.5进行合成生成。
核心引擎: 为urdu-turn-detector库 (https://github.com/PuristanLabs1/urdu-turn-detection) 优化。

搜集汇总

数据集介绍

构建方式

在语音交互技术领域，构建高质量的标注数据集是提升模型性能的关键。该数据集的构建采用了一套严谨的多阶段流程，首先基于人工验证的乌尔都语黄金标准语句与Google Gemini 2.5 Flash Lite生成的合成样本，共同构成了覆盖日常生活、新闻、正式请求及随意思维表达等多样化场景的文本语料库。随后，通过高质量乌尔都语文语转换系统将文本转化为16kHz单声道音频，并运用智能截断算法，在语义边界处截断句子以生成表示“未完成”的负样本，模拟真实对话中的中断现象。为克服模型对静默的偏见，数据集特意注入了合成静默及思考填充音（如“嗯”、“啊”），并统一将音频填充至3.0秒，同时生成注意力掩码以引导模型忽略非语音片段，从而确保了数据在声学与语言学层面的丰富性与真实性。

特点

该数据集专为乌尔都语对话轮次检测任务设计，具备若干显著特征。其核心在于包含了11,479条经过精细平衡的音频片段，其中57%标记为“完成”，43%标记为“未完成”，这种平衡有助于模型准确区分对话轮次的结束与持续。数据格式采用16kHz采样率的单声道WAV文件，并以WebDataset的TAR分片形式组织，支持高效流式读取，平均时长约为2.5秒。每个样本均附带乌尔都语原文转录及二进制分类标签，极大便利了端到端模型的训练。尤为突出的是，数据集通过注入合成静默与思考噪音，并配合注意力掩码，有效降低了模型因说话人停顿或犹豫而产生误判的风险，使其特别适用于实时语音AI应用中的“智能轮次”或“抢断”检测场景。

使用方法

为便于研究者与开发者利用该数据集，官方提供了灵活的加载方式。推荐采用流式模式进行读取，该方法无需下载完整的约1GB归档文件，可直接通过Hugging Face的datasets库实时获取音频数据及元信息，包括波形数组、采样率、转录文本和分类标签。用户亦可选择完全下载模式以进行离线模型训练。在使用前，需确保安装必要的Python依赖库，如datasets、librosa和torchcodec。值得注意的是，在Windows系统上，因torchcodec依赖FFmpeg动态链接库，需预先安装FFmpeg并将其路径添加至系统环境变量，以避免音频解码错误。加载后，数据集可直接用于训练乌尔都语轮次检测模型，或作为评估基准以验证相关语音活动检测系统的性能。

背景与挑战

背景概述

在智能语音交互领域，实时对话系统的流畅性依赖于精准的说话人转换检测，即判断语音片段是否构成一个完整的说话轮次。针对资源相对稀缺的乌尔都语，PuristanLabs于近期推出了Urdu Turn Detection (Audio Dataset V2)数据集，旨在为乌尔都语语音活动检测与智能轮次转换提供高质量的标注音频资源。该数据集的核心研究问题聚焦于训练高精度、低延迟的模型，以识别乌尔都语对话中的轮次结束点，从而支撑如“智能打断”等实时语音AI应用。通过结合人工验证文本与合成对话生成，并引入先进的声学增强技术，该数据集显著提升了乌尔都语语音处理模型的鲁棒性，对推动多语言对话人工智能的发展具有重要影响力。

当前挑战

该数据集致力于解决乌尔都语语音轮次检测这一特定领域问题，其核心挑战在于准确区分完整与不完整的说话轮次。这要求模型必须深入理解乌尔都语特有的韵律特征、语义边界以及语音中的停顿模式，避免将思考性停顿或语句中间的沉默误判为轮次结束。在构建过程中，团队面临多重技术挑战：首先，标准文本转语音生成的音频通常具有清晰的结束边界，难以模拟真实对话中声音逐渐减弱的自然状态；其次，为创建高质量的不完整轮次样本，需设计精密的截断算法，在语义边界处中断语句，同时避免引入人为痕迹；此外，克服模型的“沉默偏见”是一大难点，需要通过注入合成静音与思考噪音，并配合注意力掩码机制，确保模型学会忽略非语音片段，从而在真实应用场景中实现可靠的检测性能。

常用场景

解决学术问题

该数据集有效解决了乌尔都语语音处理中话轮检测的学术挑战，包括低资源语言的数据稀缺问题。通过合成对话生成和声学增强技术，它提供了高质量标注数据，助力研究者探索语音边界识别、韵律分析及实时延迟优化，推动了多语言对话AI的理论进展与实际模型性能提升。

衍生相关工作

基于此数据集，衍生出多项经典研究工作，包括开源库 `urdu-turn-detector` 的开发，该库专注于高精度低延迟的话轮检测模型。此外，研究者在语音活动检测、多语言对话系统优化及合成数据增强方法上取得了进展，进一步拓展了乌尔都语语音处理的学术边界与应用生态。

以上内容由遇见数据集搜集并总结生成