southern-kurdish-asr

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/aranemini/southern-kurdish-asr

下载链接

链接失效反馈

官方服务：

资源简介：

Bestun 是一个用于南库尔德语（ISO 639-3: sdh）自动语音识别（ASR）的数据集，旨在支持这一濒危语言的语音处理研究。数据集包含两个主要部分：训练语料库和评估基准。训练语料库（Bestun）包含约30小时的手动验证朗读语音，共18,636条录音，15,273条独特语句，由208名年龄在18至49岁之间的说话者录制。评估基准包含773条经过验证的语句，总时长为86.74分钟，由来自不同方言区域的8名说话者录制。数据集中的每条记录包含音频文件（WAV格式）和元数据，如南库尔德语阿拉伯字母转写、说话者ID、性别、方言区域标签等。数据集采用CC BY-NC-ND 4.0许可协议发布，适用于低资源语言的ASR任务和研究。

创建时间：

2026-02-16

原始信息汇总

Bestun — Southern Kurdish ASR Corpus and Benchmark 数据集概述

数据集基本信息

数据集名称: Bestun — Southern Kurdish ASR Corpus and Benchmark
语言: 南库尔德语 (ISO 639-3: sdh)
许可证: CC BY-NC-ND 4.0
主要任务类别: 自动语音识别 (ASR)
相关标签: 库尔德语、南库尔德语、sdh、asr、低资源语言、濒危语言

数据集内容与规模

数据构成

数据集包含两个主要部分：

Bestun 训练语料库: 约 30 小时 经过人工验证的朗读语音。
评估基准: 由来自不同南库尔德语方言区的 8 位说话人录制的 773 条已验证话语 (86.74 分钟)。

数据划分

训练集 (train):
- 来源: Bestun 训练语料库 (众包朗读语音)
- 样本数量: 18,635
- 数据大小: 4,653,652,602 字节
测试集 (test):
- 来源: 南库尔德语评估基准 (100个句子 × 多位说话人；已验证子集)
- 样本数量: 773
- 数据大小: 499,807,823 字节

整体统计

下载大小: 4,410,965,191 字节
数据集总大小: 5,153,460,425 字节

数据详情

训练语料库 (Bestun) 统计

音频格式: 单声道，24 kHz，WAV
总录音数: 18,636
唯一话语数: 15,273
总时长: 约 30 小时
说话人数量: 208 (年龄范围 18–49)

评估基准统计

说话人数量: 8 (来自不同方言区)
已验证话语数: 773
总时长: 86.74 分钟

训练数据采集环境

训练数据通过两种众包工具收集：

telegram_bot: 通过 Telegram 机器人录制。
web_tool: 通过基于网络的录制工具 jiridastkrd.com 录制。

数据结构与特征

数据集包含以下特征（字段）：

file_name: 文件名 (字符串)
kurdish: 南库尔德语阿拉伯字母书写体系的转写文本 (字符串)
speaker_id: 匿名化的说话人标识符 (字符串)
gender: 说话人性别 (当可用时)，值为 M 或 F (字符串)
region: 方言/地区标签 (当可用时) (字符串)
subset: 数据集构建过程中使用的可选来源标签 (字符串)
audio: 语音波形 (WAV 格式的音频数据)

使用方式

通过 Python `datasets` 库加载

python from datasets import load_dataset ds = load_dataset("aranemini/southern-kurdish-asr")

引用信息

如果使用本数据集，请引用以下论文： bibtex @inproceedings{mohammadamini2026southernkurdish, title = {Southern Kurdish speech recognition resources and benchmarking}, author = {Mohammad Mohammadamini and Marie Tahon}, booktitle = {Proceedings of the 2026 Language Resources and Evaluation Conference (LREC 2026)}, year = {2026}, address = {Palma, Mallorca (Spain)}, publisher = {European Language Resources Association (ELRA)}, }

搜集汇总

数据集介绍

构建方式

在低资源语言保护与自动语音识别技术交叉的背景下，Bestun语料库的构建体现了对濒危语言南库尔德语（sdh）的系统性数据采集。该数据集通过众包模式，利用Telegram机器人和基于网络的录音工具，采集了来自208位年龄在18至49岁之间说话者的朗读语音。经过严格的人工验证，最终形成了包含约30小时、18,636条录音的训练语料，以及由8位来自不同方言区的说话者录制的773条验证语句构成的评估基准。数据采集过程兼顾了说话者的性别、地域分布等元信息，确保了数据的多样性与代表性。

特点

作为南库尔德语首个公开的自动语音识别资源，该数据集的核心特点在于其针对低资源且受威胁语言的专门设计。语料库提供了约30小时的高质量朗读语音，所有音频均为单声道、24 kHz采样率的WAV格式，并附有阿拉伯字母体系的南库尔德语文本转录。数据集结构清晰，包含训练集与测试集，并详细标注了说话者ID、性别、方言区域及数据来源子集等丰富的元数据。这些特征不仅为语音识别模型训练提供了基础，也为语言变异研究和社会语言学分析创造了条件。

使用方法

研究者和开发者可通过Hugging Face的`datasets`库便捷地加载和使用该数据集。在Python环境中，执行`load_dataset("aranemini/southern-kurdish-asr")`指令即可获取包含音频波形和对应转录文本的结构化数据。数据集遵循标准分割，其中训练集用于模型训练与微调，而独立的多说话者测试集则作为评估基准，用于衡量模型在真实方言变异场景下的泛化能力。该资源主要服务于低资源语言语音识别模型的开发、评估与比较研究。

背景与挑战

背景概述

在低资源语言技术领域，南库尔德语（ISO 639-3: sdh）作为库尔德语族中受到威胁的方言变体，长期面临数字资源匮乏的困境。由研究人员Mohammad Mohammadamini和Marie Tahon主导构建的Bestun数据集，于2026年正式发布，旨在为南库尔德语的自动语音识别研究提供首个公开的基准资源。该数据集包含约30小时的有声朗读语料及86.74分钟的评估基准，通过众包方式采集了来自不同方言区域的说话人数据，其核心研究问题聚焦于在有限数据条件下建立可靠的语音识别系统，以促进濒危语言的数字保存与技术应用，对计算语言学及语言多样性保护领域具有重要推动作用。

当前挑战

南库尔德语自动语音识别面临的核心挑战在于其低资源特性与语言内部变异性。作为濒危语言，可用的标注语音数据极为稀缺，且方言区域差异显著，导致模型难以捕捉统一的音系与语法特征。在数据集构建过程中，技术挑战同样突出：众包采集需平衡语音质量与说话人多样性，录音环境与设备的不一致性引入了背景噪声与声道变异；同时，采用阿拉伯文字为基础的转写体系需处理正字法与口语形式的对应关系，人工验证环节则要求语言学专家对低资源方言进行精细标注，这些因素共同增加了数据标准化与模型泛化的难度。

常用场景

经典使用场景

在低资源语言技术研究领域，Southern Kurdish ASR数据集为自动语音识别模型的训练与评估提供了关键支持。该数据集包含约30小时的朗读语音训练语料及86.74分钟的基准测试数据，覆盖多位来自不同方言区域的说话者，常用于构建和优化针对南库尔德语的端到端语音识别系统。研究者通过该数据集能够系统性地探索低资源条件下声学模型与语言模型的联合训练策略，为濒危语言的数字化保存奠定技术基础。

解决学术问题

该数据集直接应对低资源濒危语言在计算语言学领域的研究空白，解决了南库尔德语缺乏标准化语音语料库的学术难题。通过提供经过人工校验的语音-文本对齐数据，它使得研究者能够系统评估跨语言迁移学习、少样本语音识别等前沿方法的有效性。其多说话者、多方言区域的设计为语言变体建模、口音自适应等细分研究方向提供了实证基础，推动了语言技术公平性与包容性的学术讨论。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，包括基于多任务学习的低资源语音识别框架、融合方言特征的声学建模方法，以及利用跨语言预训练模型进行参数高效微调的技术探索。部分研究进一步构建了南库尔德语与中库尔德语（ckb）的对比分析语料库，深化了对库尔德语族内部语言连续体的计算刻画。这些工作共同推动了低资源语言处理范式的演进，并为其他濒危语言的技术化保存提供了可复现的方法论模板。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集