thai-sent-local-v2

Hugging Face2025-08-01 更新2025-08-02 收录

下载链接：

https://huggingface.co/datasets/pythainlp/thai-sent-local-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Thai sent local v2数据集包含了四种泰语方言：korat（东北部方言）、pattani（南部方言）、khummuang（北部方言）和isan（东北部方言）。数据集用于文本生成任务，提供了输入和目标字符串对。数据集从多个来源收集，包括wiktionary和特定方言的语言学习网站，并遵循相应的知识共享许可证。

The Thai Sent Local v2 dataset encompasses four Thai dialects: Korat (northeastern dialect), Pattani (southern dialect), Khummuang (northern dialect), and Isan (northeastern dialect). It is developed for text generation tasks, providing input-target string pairs. The dataset is collected from multiple sources, including Wiktionary and dialect-specific language learning websites, and adheres to the corresponding Creative Commons licenses.

创建时间：

2025-07-23

原始信息汇总

Thai sent local v2 数据集概述

数据集基本信息

任务类别: 文本生成 (text-generation)
语言: 泰语 (th)
许可证: CC BY-4.0
创建者: Wannaphong Phatthiyaphaibun

数据集内容

特征:
- inputs: 字符串类型
- targets: 字符串类型
数据量:
- 训练集 (train): 2034 个样本，大小 1,051,320 字节
下载大小: 329,062 字节
数据集总大小: 1,051,320 字节

数据来源

korat (ภาษาโคราช): 来自 pythainlp/thai-local-language-translation-dataset (CC BY-SA)
pattani (ภาษาปักษ์ใต้หรือภาษาใต้): 来自 pythainlp/thai-local-language-translation-dataset (CC BY-SA)
khummuang (ภาษาเหนือหรือภาษาคำเมือง):
- 字典: 来自 th.wiktionary.org (CC BY-SA)
- 句子: 来自 pythainlp/thai-local-language-translation-dataset (CC BY-SA)
isan (ภาษาอีสาน):
- 字典和句子: 来自 isan.clubs.chula.ac.th (CC BY-SA-NC)

搜集汇总

数据集介绍

构建方式

在泰语方言研究领域，thai-sent-local-v2数据集通过系统整合多源语言资源构建而成。该数据集主要收录了泰国四大方言（โคราช、ปักษ์ใต้、คำเมือง、อีสาน）的文本语料，数据来源包括维基词典泰语版的北部方言词典、朱拉隆功大学伊桑语言研究中心的学术资源，以及PyThaiNLP项目提供的方言翻译数据集。构建过程中严格遵守知识共享协议（CC BY-SA/NC），采用人工校验与自动化处理相结合的方式，确保语料的地域特性和语言准确性。

特点

作为泰国方言研究的专业语料库，该数据集呈现出显著的多维特征。其核心价值在于覆盖了泰国东北部（伊桑）、北部（คำเมือง）、南部（ปักษ์ใต้）和呵叻四大地理方言区的语言变体，每个方言条目均包含标准泰语与方言的平行文本。数据规模达2034条实例，文本总长度超过百万字节，特别值得注意的是包含南部帕塔尼方言等较少被数字化的语言变体，为语言多样性保护提供了重要素材。

使用方法

该数据集适用于泰语方言计算语言学研究的多个维度。研究者可通过HuggingFace平台直接加载数据集，其标准化的text-generation任务格式包含inputs（方言文本）和targets（标准泰语）双字段，支持端到端的方言翻译模型训练。对于特定研究需求，可分别提取korat、pattani、khummuang或isan子集进行对比分析，建议结合PyThaiNLP工具包进行分词等预处理，以充分发挥该数据集在方言机器翻译、语言接触研究等领域的应用价值。

背景与挑战

背景概述

thai-sent-local-v2数据集由Wannaphong Phatthiyaphaibun创建，旨在促进泰国本土语言的文本生成研究。该数据集涵盖了四种泰国本土语言变体：Korat（ภาษาโคราช）、Pattani（ภาษาปักษ์ใต้或ภาษาใต้）、Khummuang（ภาษาเหนือ或ภาษาคำเมือง）以及Isan（ภาษาอีสาน）。其数据来源包括th.wiktionary.org、isan.clubs.chula.ac.th以及PythainLP项目提供的本地语言翻译数据集，均遵循知识共享许可协议。该数据集的构建为泰国本土语言的自然语言处理任务提供了重要资源，填补了相关领域的数据空白。

当前挑战

thai-sent-local-v2数据集在解决泰国本土语言文本生成问题时面临多重挑战。首先，泰国本土语言变体的多样性和复杂性使得数据收集和标注过程尤为困难，尤其是不同方言之间的词汇和语法差异显著。其次，数据来源的分散性和许可协议的不一致性增加了数据集构建的复杂性。此外，由于本土语言的使用场景有限，数据规模相对较小，可能影响模型的泛化能力。这些挑战不仅考验了数据集的构建质量，也对后续的自然语言处理研究提出了更高要求。

常用场景

经典使用场景

在泰语方言研究领域，thai-sent-local-v2数据集为学者提供了丰富的方言文本资源，涵盖了泰国的四种主要方言：东北方言（ภาษาอีสาน）、北部方言（ภาษาเหนือ或ภาษาคำเมือง）、南部方言（ภาษาปักษ์ใต้或ภาษาใต้）以及呵叻方言（ภาษาโคราช）。该数据集常用于构建和评估泰语方言翻译模型，支持从方言到标准泰语或反之的文本转换任务。

衍生相关工作

thai-sent-local-v2数据集启发了多项经典研究，例如基于Transformer的泰语方言翻译模型、方言语音合成系统，以及泰语方言分类器的开发。相关研究进一步扩展了数据集的应用范围，例如结合深度学习技术提升方言翻译的准确性，或利用迁移学习解决低资源方言的数据不足问题。

数据集最近研究