Shirali/ISSAI_KSC_335RS_v_1_1

Name: Shirali/ISSAI_KSC_335RS_v_1_1
Creator: Shirali
Published: 2023-03-07 03:18:44
License: 暂无描述

Hugging Face2023-03-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Shirali/ISSAI_KSC_335RS_v_1_1

下载链接

链接失效反馈

官方服务：

资源简介：

Kazakh Speech Corpus (KSC)是一个众包的开源哈萨克语语音语料库，由ISSAI开发，包含约332小时的转录音频，超过153,000个话语。这些话语由来自不同地区、年龄组和性别的参与者提供，并由哈萨克语母语者仔细检查以确保高质量。该数据集主要用于训练自动语音识别系统。

提供机构：

Shirali

原始信息汇总

数据集概述

数据集名称

名称: ISSAI_KSC_335RS_v_1_1
别名: Kazakh Speech Corpus (KSC)
标识符: SLR102

数据集描述

开发机构: ISSAI
数据量: 约330小时
语言: 哈萨克语 (kk)
用途: 主要用于训练自动语音识别系统
数据组成: 包含超过153,000条转录音频，涉及不同地区、年龄组和性别的参与者
质量保证: 由哈萨克语母语者仔细检查以确保高质量

数据集特征

特征名称: uttID, deviceID, text, audio
数据类型: string, int64, string, audio

数据集分割

分割名称: dev, test, train
示例数量: 3283, 3334, 147236
字节数: 391608860.227, 372725363.792, 19832618976.144

数据集大小

下载大小: 19079278086字节
数据集总大小: 20596953200.163002字节

许可证

许可证类型: Attribution 4.0 International (CC BY 4.0)

引用信息

引用格式: bibtex @inproceedings{khassanov-etal-2021-crowdsourced, title = "A Crowdsourced Open-Source {K}azakh Speech Corpus and Initial Speech Recognition Baseline", author={Yerbolat Khassanov and Saida Mussakhojayeva and Almas Mirzakhmetov and Alen Adiyev and Mukhamet Nurpeiissov and Huseyin Atakan Varol}, booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume", month = apr, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.eacl-main.58", doi = "10.18653/v1/2021.eacl-main.58", pages = "697--706" }

搜集汇总

数据集介绍

构建方式

ISSAI_KSC_335RS_v_1_1数据集的构建，是通过众筹的方式收集了约332小时的转录音频，包含超过153,000个由不同地区、年龄、性别的人群所发出的语音片段。该数据集由母语为哈萨克语的人士进行了仔细审查，以保证其高质量，主要用于自动语音识别系统的训练。

特点

本数据集具有多样性、开放性和高质量的特点。它包含了丰富的语音样本，覆盖了不同方言、年龄和性别的说话人，这为自动语音识别系统提供了广泛的训练基础。同时，数据集遵循知识共享署名4.0国际许可，保证了其使用的开放性和灵活性。

使用方法

使用ISSAI_KSC_335RS_v_1_1数据集，用户首先需要下载相应的数据分片，包括语音、转录文本和元数据。之后，可以通过数据集中的uttID（语音片段ID）、deviceID（设备ID）和text（文本）字段来组织语音识别的训练和测试过程。用户在利用该数据集时，应遵循相应的使用条款和许可协议。

背景与挑战

背景概述

在自动语音识别领域，高质量的语言数据集是构建和训练模型的基础。ISSAI_KSC_335RS_v_1_1数据集，由ISSAI机构开发，是一个开源的哈萨克语语音语料库，含有约332小时的转录音频，包含超过153,000条发言，由不同地区、年龄和性别的参与者贡献。该数据集经过母语哈萨克语者的仔细审查，以确保其高质量，主要用途是用于自动语音识别系统的训练。自2021年发布以来，该数据集因其全面性和准确性，在哈萨克语自动语音识别领域产生了显著影响。

当前挑战

尽管ISSAI_KSC_335RS_v_1_1数据集为哈萨克语自动语音识别领域提供了宝贵的资源，但构建此类大型数据集仍面临诸多挑战。首先，在众包数据收集过程中，保证数据的质量和一致性是一大难题。其次，数据集构建过程中，涉及到的语言变体和方言的多样性处理，以及性别、年龄等因素的均衡代表性，都是需要克服的重要挑战。此外，数据集在标注和转录过程中的准确性验证，也是确保数据集可用性的关键环节。

常用场景

经典使用场景

在自动语音识别领域，Shirali/ISSAI_KSC_335RS_v_1_1数据集作为开源的哈萨克语语音库，其经典使用场景在于为自动语音识别系统提供高质量的训练数据。该数据集包含的丰富语音样本，跨越不同区域、年龄、性别，为模型训练提供了多元化的语言环境，进而提高语音识别的准确性与泛化能力。

衍生相关工作

基于该数据集，研究者们已经开展了一系列相关工作，包括但不限于哈萨克语语音识别模型的开发、跨语言语音识别技术的探索以及语音合成和语音识别相结合的应用研究，进一步拓宽了语音处理技术的应用领域和研究深度。

数据集最近研究