CMKL/Porjai-Thai-voice-dataset-central

Name: CMKL/Porjai-Thai-voice-dataset-central
Creator: CMKL
Published: 2024-09-03 20:22:51
License: 暂无描述

Hugging Face2024-09-03 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/CMKL/Porjai-Thai-voice-dataset-central

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - th license: cc-by-sa-4.0 dataset_info: features: - name: audio dtype: audio - name: sentence dtype: string - name: utterance dtype: string splits: - name: train num_bytes: 7906513035.192 num_examples: 335674 download_size: 7476273976 dataset_size: 7906513035.192 configs: - config_name: default data_files: - split: train path: data/train-* --- # Porjai-Thai-voice-dataset-central This corpus contains a officially split of 700 hours for Central Thai, and 40 hours for the three dialect each. The corpus is designed such that there are some parallel sentences between the dialects, making it suitable for Speech and Machine translation research. Our demo ASR model can be found at https://www.cmkl.ac.th/research/porjai. The Thai Central data was collected using [Wang Data Market](https://www.wang.in.th/). Since parts of this corpus are in the [ML-SUPERB](https://multilingual.superbbenchmark.org/) challenge, the test sets are not released in this github and would be released subsequently in ML-SUPERB. The baseline models of our corpus are at: [Thai-central](https://huggingface.co/SLSCU/thai-dialect_thai-central_model) [Khummuang](https://huggingface.co/SLSCU/thai-dialect_khummuang_model) [Korat](https://huggingface.co/SLSCU/thai-dialect_korat_model) [Pattani](https://huggingface.co/SLSCU/thai-dialect_pattani_model) The Thai-dialect Corpus is licensed under [CC-BY-SA 4.0.](https://creativecommons.org/licenses/by-sa/4.0/) # Acknowledgements This dataset was created with support from the PMU-C grant (Thai Language Automatic Speech Recognition Interface for Community E-Commerce, C10F630122) and compute support from the Apex cluster team. Some evaluation data was donated by Wang. # Citation ``` @inproceedings{suwanbandit23_interspeech, author={Artit Suwanbandit and Burin Naowarat and Orathai Sangpetch and Ekapol Chuangsuwanich}, title={{Thai Dialect Corpus and Transfer-based Curriculum Learning Investigation for Dialect Automatic Speech Recognition}}, year=2023, booktitle={Proc. INTERSPEECH 2023}, pages={4069--4073}, doi={10.21437/Interspeech.2023-1828} } ```

语言： - 泰语（th）许可证：CC-BY-SA 4.0 数据集信息：特征： - 名称：audio（音频），数据类型：音频 - 名称：sentence（句子），数据类型：字符串 - 名称：utterance（话语），数据类型：字符串划分集： - 名称：训练集（train），字节数：7906513035.192，样本数：335674 下载大小：7476273976字节数据集总大小：7906513035.192字节配置项： - 配置名称：default（默认），数据文件： - 划分集：训练集（train），路径：data/train-* # Porjai泰语语音中央方言数据集本语料库官方划分为700小时的泰语中央方言数据，以及泰语另外三大方言各40小时的数据。该语料库设置了方言间的平行句对，适用于语音识别与机器翻译相关研究。我们的演示版自动语音识别（Automatic Speech Recognition）模型可通过以下链接获取：https://www.cmkl.ac.th/research/porjai。泰语中央方言数据通过[Wang Data Market](https://www.wang.in.th/)平台采集。由于本语料库的部分内容已纳入[ML-SUPERB](https://multilingual.superbbenchmark.org/)挑战赛，本次GitHub发布未包含测试集，后续将通过ML-SUPERB平台发布。本语料库的基准模型如下： [泰语中央方言模型（Thai-central）](https://huggingface.co/SLSCU/thai-dialect_thai-central_model) [库穆昂方言模型（Khummuang）](https://huggingface.co/SLSCU/thai-dialect_khummuang_model) [呵叻方言模型（Korat）](https://huggingface.co/SLSCU/thai-dialect_korat_model) [北大年方言模型（Pattani）](https://huggingface.co/SLSCU/thai-dialect_pattani_model) 本泰语方言语料库采用[CC-BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)许可证发布。 ## 致谢本数据集的制作得到了PMU-C项目（面向社区电商的泰语自动语音识别接口，编号C10F630122）以及Apex集群团队的计算资源支持，部分评估数据由Wang捐赠。 ## 引用 @inproceedings{suwanbandit23_interspeech, author={Artit Suwanbandit and Burin Naowarat and Orathai Sangpetch and Ekapol Chuangsuwanich}, title={{泰语方言语料库及基于迁移的课程学习在方言自动语音识别中的应用研究}}, year=2023, booktitle={Proc. INTERSPEECH 2023}, pages={4069--4073}, doi={10.21437/Interspeech.2023-1828} }

提供机构：

CMKL

搜集汇总

数据集介绍

构建方式

该数据集由CMKL大学构建，旨在推动泰语方言语音识别与机器翻译研究。其核心部分包含700小时的中部泰语语音数据，以及三种方言（北部、东北部、南部）各40小时的语音数据，总计约820小时。中部泰语数据通过Wang Data Market平台收集，确保语音样本的多样性与代表性。数据集在方言间设计了部分平行句子，以支持跨方言的语音与文本对齐研究。训练集包含335,674个样本，以音频-句子-话语三元组形式存储，采用CC-BY-SA 4.0许可协议发布。

特点

数据集的显著特点在于其规模与方言覆盖的均衡性。700小时的中部泰语数据为大规模语音识别提供了坚实基础，而每种方言40小时的配置则兼顾了数据稀缺性与研究可行性。方言间平行句子的存在，使得该数据集不仅适用于单一方言的ASR任务，还能支持方言间的语音翻译与迁移学习。此外，数据集已部分纳入ML-SUPERB挑战，其测试集未公开以保障基准测试的公平性，体现了严谨的科研设计。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，使用默认配置即可访问训练集，数据以音频特征、句子文本和话语标识符组成。推荐结合官方提供的基线模型（如中部泰语模型）进行微调或评估，模型链接已公开。对于跨方言任务，可利用数据集中的平行句子设计迁移学习或课程学习策略。需注意测试集需通过ML-SUPERB挑战获取，以确保评估标准的统一性。引用时请参考INTERSPEECH 2023论文。

背景与挑战

背景概述

在自然语言处理与语音技术飞速发展的当下，方言自动语音识别（ASR）作为连接语言多样性与智能交互的桥梁，正日益受到学术界与工业界的关注。CMKL/Porjai-Thai-voice-dataset-central 数据集由泰国皇家园艺大学（CMKL）与朱拉隆功大学的研究人员在2023年创建，其核心研究问题聚焦于构建一个涵盖泰国中部方言及三种主要方言（Khummuang、Korat、Pattani）的大规模语音语料库，旨在推动方言语音识别与语音机器翻译的研究。该数据集包含700小时的中部泰语语音及每种方言各40小时的语料，并设计了跨方言的平行句子，为多方言建模提供了独特资源。其影响力体现在被纳入ML-SUPERB挑战赛，成为评估和提升多语言、多方言ASR性能的重要基准，同时配套的基线模型和开源许可（CC-BY-SA 4.0）促进了相关研究的可复现与生态发展。

当前挑战

该数据集所应对的领域挑战主要在于方言语音识别的高难度问题：泰国方言在音素、韵律和词汇上与标准泰语存在显著差异，且方言数据稀缺，导致传统ASR模型泛化能力不足。构建过程面临的挑战包括：数据收集需覆盖不同地域的方言群体，确保语音质量与文本标注的准确性；平行句子的设计需兼顾语言学的对齐性与实际场景的自然性，以支撑语音翻译研究。此外，测试集未公开以维护ML-SUPERB挑战的公平性，但这也增加了外部研究者验证和对比模型性能的难度。同时，700小时大规模语料的存储与处理对计算资源提出高要求，而方言间的数据不平衡（中部泰语远多于方言）可能引发模型偏见，需通过课程学习等迁移策略加以缓解。

常用场景

经典使用场景

Porjai-Thai-voice-dataset-central 作为泰语中央方言的大规模语音语料库，其经典使用场景聚焦于自动语音识别（ASR）系统的构建与优化。该数据集包含约700小时的中央泰语语音数据，并辅以三种方言各40小时的平行语料，为多方言语音识别研究提供了丰富的资源。研究者常利用其高覆盖率的语音样本与文本对齐特性，训练端到端或混合型ASR模型，尤其适用于探索方言间的声学与语言特征迁移。

实际应用

在实际应用中，Porjai数据集支撑了泰语社区电商场景下的语音交互系统开发，例如通过ASR接口实现方言语音到文本的转换，助力农村地区的数字化服务。其基线模型已被部署于公开演示平台，用于实时语音识别任务。同时，该数据集为智能客服、语音搜索及无障碍通信工具提供了训练基础，尤其在方言多样化的泰国语境中，增强了语音技术的包容性与可用性。

衍生相关工作

该数据集衍生了多项经典工作，包括ML-SUPERB挑战赛中基于其测试集的跨方言基准评估，以及多个预训练模型的开源发布，如Thai-central、Khummuang、Korat和Pattani方言的ASR基线。这些工作不仅验证了数据集在方言识别中的有效性，还激发了后续研究，如结合自监督学习与方言适配的声学模型优化，以及针对平行语料的多任务学习框架探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集