thai-dialect-corpus

github2024-05-04 更新2024-05-31 收录

下载链接：

https://github.com/SLSCU/thai-dialect-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含中央泰语方言及三种其他泰语方言（Khummuang, Korat, Pattani）的语料库。该语料库包含700小时的中央泰语数据和每种方言40小时的数据，设计有方言间的平行句子，适用于语音和机器翻译研究。

This corpus encompasses the Central Thai dialect along with three other Thai dialects (Khummuang, Korat, Pattani). It includes 700 hours of Central Thai data and 40 hours of data for each dialect, featuring parallel sentences across dialects, making it suitable for research in speech and machine translation.

创建时间：

2023-08-22

原始信息汇总

数据集概述

数据集名称

thai-dialect-corpus

数据集内容

该数据集包含四种泰语方言：中央泰语（Central Thai）、库姆蒙语（Khummuang）、科拉特语（Korat）和帕塔尼语（Pattani）。中央泰语部分包含700小时的数据，其他三种方言各包含40小时的数据。数据集中存在一些平行句子，适用于语音和机器翻译研究。

数据集结构

Thai-central数据

目录结构：

thai_central ├── audio │ ├── train_audioxx.zip │ ├── ... │ ├── dev_audioxx.zip │ └── .. ├── dev.csv └── train.csv
元数据：
- utterance: 语音文件ID，同时也是音频文件名。
- sentence: 转录文本。
- audio: 音频文件名及其所属目录。

Thai-dialect数据

目录结构：

thai_dialect ├── khummuang ├── korat └── pattani
元数据：
- 包含与Thai-central数据相同的3列。
- thai_sentence: 泰语翻译的转录文本。
- dialect_type: 数据来自ECOM或SURV子集。

数据集访问

数据集的音频和元数据可通过以下链接获取： Google Drive链接

数据集模型

Thai-central: 模型链接
Khummuang: 模型链接
Korat: 模型链接
Pattani: 模型链接

许可证

数据集根据CC-BY-SA 4.0许可证发布。

搜集汇总

数据集介绍

构建方式

thai-dialect-corpus数据集的构建基于对泰国四种方言的语音数据收集，包括中央泰语以及Khummuang、Korat和Pattani三种方言。数据集分为中央泰语的700小时语音数据和每种方言的40小时语音数据。数据集设计时特别考虑了方言间的平行句子，以支持语音识别和机器翻译研究。中央泰语数据通过Wang Data Market收集，而方言数据则通过专门的采集流程获取，确保了数据的多样性和代表性。

使用方法

使用thai-dialect-corpus数据集时，用户可以通过提供的Google Drive链接下载音频和元数据。数据集分为中央泰语和三种方言的子集，每个子集包含训练和验证数据，并附有详细的CSV文件记录音频文件的元信息。用户可以根据需要选择特定的方言数据进行模型训练或评估。此外，数据集还提供了基于Hugging Face的基线模型，方便用户进行性能对比和进一步研究。

背景与挑战

背景概述

thai-dialect-corpus数据集由泰国中央方言及三种其他泰语方言（Khummuang、Korat和Pattani）构成，旨在支持语音识别与机器翻译研究。该数据集包含700小时的中央泰语数据及每种方言40小时的数据，部分数据具有平行句，便于跨方言研究。数据集的构建得到了PMU-C资助项目（C10F630122）的支持，并由Wang Data Market采集中央泰语数据。其研究成果已在2023年INTERSPEECH会议上发表，展示了其在泰语方言自动语音识别领域的应用潜力。

当前挑战

thai-dialect-corpus数据集面临的挑战包括：首先，方言间的语音差异较大，增加了语音识别模型的训练难度；其次，数据集中的平行句数量有限，可能影响跨方言机器翻译的效果；再者，数据采集过程中需确保多样性和代表性，以避免偏差。此外，由于部分数据参与了ML-SUPERB挑战，测试集的发布受到限制，进一步增加了数据集的使用复杂性。

常用场景

经典使用场景

thai-dialect-corpus数据集的经典使用场景主要集中在语音识别和机器翻译领域。由于该数据集包含了泰国中部方言及三种其他泰国方言（Khummuang、Korat和Pattani）的语音数据，且部分句子在不同方言间具有平行性，因此它非常适合用于方言间的自动语音识别（ASR）和机器翻译研究。研究者可以利用这些平行句子来训练和评估模型在不同方言间的转换能力，从而提升跨方言的语音识别和翻译性能。

解决学术问题

该数据集解决了在多语言和多方言环境下语音识别和机器翻译的学术难题。通过提供丰富的方言语音数据和对应的文本转录，研究者能够深入探索方言间的语音特征差异，并开发出更为鲁棒的语音识别和翻译模型。这不仅有助于提升方言语音识别的准确性，还为跨方言的机器翻译研究提供了宝贵的资源，推动了相关领域的技术进步。

实际应用

在实际应用中，thai-dialect-corpus数据集可广泛应用于多语言语音助手、跨方言通信系统和方言保护与研究等领域。例如，在泰国，不同方言的使用者可以通过基于该数据集训练的语音识别系统进行无障碍交流，促进社会融合。此外，该数据集还可用于开发方言保护工具，帮助记录和保存濒危方言，为语言学研究提供数据支持。

数据集最近研究