Thai Grapheme to Phoneme (G2P) Wiktionary Corpus

github2022-07-25 更新2024-05-31 收录

下载链接：

https://github.com/PyThaiNLP/thai-g2p-wiktionary-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于构建泰语Grapheme-to-Phoneme模型的数据集，数据来源于Wiktionary，通过WikiPron工具抓取，使用IPA表示。数据集包含多个日期抓取的文件，用于研究和开发泰语发音模型。

This is a dataset designed for constructing Thai Grapheme-to-Phoneme models. The data is sourced from Wiktionary and extracted using the WikiPron tool, represented in IPA (International Phonetic Alphabet). The dataset includes files captured on various dates, intended for research and development of Thai pronunciation models.

创建时间：

2022-07-24

原始信息汇总

数据集概述

数据集名称

Thai Grapheme to Phoneme (G2P) Wiktionary Corpus

数据集用途

用于构建泰语字符到音素的模型。

数据来源

数据来源于Wiktionary，通过WikiPron进行抓取。

数据集格式

wiktionary-23-7-2022-clean.tsv - 2022年7月23日抓取并清洗的数据集
wiktionary-23-7-2022.tsv - 2022年7月23日抓取的数据集
wiktionary-11-2-2020.tsv - 2020年2月11日抓取的数据集
clean_corpus.ipynb - 清洗源代码
get-wikipron.ipynb - 用于通过WikiPron抓取的代码

数据集示例

Word	Phonemes
เมน	m eː n ˧
เมนส์	m e n ˧
เมรุ	m eː n ˧
เมรุ	m eː n ˧ .
เมรุ	m eː ˧ . r u ˦˥ .
นิติรัฐ	n i ˦˥ . t i ˨˩ . r a t̚ ˦˥
รัฐชาติ	r a t̚ ˦˥ . t͡ɕʰ aː t̚ ˥˩
รัฐธรรมนูญ	r a t̚ ˦˥ . tʰ a ˨˩ . tʰ a m ˧ . m a ˦˥ . n uː n ˧

数据集许可证

CC-BY-SA 3.0

搜集汇总

数据集介绍

构建方式

Thai Grapheme to Phoneme (G2P) Wiktionary Corpus 数据集的构建基于从Wiktionary中提取的泰语词汇及其对应的国际音标（IPA）发音。通过WikiPron工具自动抓取Wiktionary页面中的泰语词汇及其发音数据，并经过清洗和整理，最终形成结构化的数据集。数据抓取的时间点包括2020年2月11日和2022年7月23日，确保数据的时效性和多样性。清洗过程通过Python脚本实现，进一步提升了数据的质量和可用性。

使用方法

该数据集主要用于构建泰语形音转换模型，适用于泰语语音合成、语音识别等自然语言处理任务。研究者可以通过加载TSV格式的数据文件，直接获取泰语词汇及其对应的IPA音标。数据集附带清洗和抓取脚本，用户可根据需求对数据进行进一步处理或扩展。通过结合深度学习框架，如TensorFlow或PyTorch，可以训练高效的G2P模型，为泰语语音技术的研究和应用提供支持。

背景与挑战

背景概述

Thai Grapheme to Phoneme (G2P) Wiktionary Corpus 是一个专门用于构建泰语字形到音素转换模型的数据集，其数据来源于Wiktionary，并通过WikiPron工具进行抓取。该数据集采用国际音标（IPA）标注，旨在为泰语自然语言处理领域提供高质量的语音资源。该数据集由多个版本组成，包括2020年和2022年抓取的数据，并提供了清理后的版本以及相关的清理代码。其创建时间可追溯至2020年，主要研究人员或机构未明确提及，但其数据来源和工具的使用表明其与开源社区和语言学研究的紧密联系。该数据集对泰语语音合成、语音识别等领域具有重要影响，为相关研究提供了基础数据支持。

当前挑战

Thai Grapheme to Phoneme (G2P) Wiktionary Corpus 面临的挑战主要集中在两个方面。首先，泰语作为一种具有复杂音系和声调系统的语言，其字形到音素的转换本身具有较高的难度，尤其是在处理多音字和声调变化时，模型需要具备较高的准确性和鲁棒性。其次，数据集的构建过程中，从Wiktionary抓取的数据可能存在噪声和不一致性，清理和标准化这些数据需要耗费大量时间和资源。此外，由于泰语的语音资源相对稀缺，如何扩展数据集的覆盖范围并提高其代表性，也是未来研究需要解决的关键问题。

常用场景

经典使用场景

Thai Grapheme to Phoneme (G2P) Wiktionary Corpus 数据集在泰语自然语言处理领域中被广泛用于构建泰语字素到音素的转换模型。通过从Wiktionary中提取的泰语词汇及其对应的国际音标（IPA）表示，研究者可以训练和评估G2P模型，从而提升泰语语音合成和语音识别系统的性能。该数据集为泰语语音学研究提供了高质量的标注数据，支持了泰语语音技术的进一步发展。

解决学术问题

该数据集解决了泰语语音处理中的关键问题，即如何准确地将泰语文字转换为对应的音素表示。由于泰语的复杂拼写规则和多音节结构，传统的G2P转换方法往往难以处理不规则拼写和同音异形词。通过提供大量经过清洗和标注的泰语词汇及其音素表示，该数据集为研究者提供了可靠的训练数据，显著提升了G2P模型的准确性和鲁棒性，推动了泰语语音技术的学术研究。

实际应用

在实际应用中，Thai Grapheme to Phoneme (G2P) Wiktionary Corpus 数据集被广泛用于泰语语音合成（TTS）和语音识别（ASR）系统的开发。例如，泰语语音助手、自动翻译系统和语音驱动的教育工具都依赖于高质量的G2P转换模型。该数据集为这些应用提供了基础支持，使得泰语语音技术能够更好地服务于泰语使用者，提升了用户体验和技术普及度。

数据集最近研究