Thai local dialect benchmark

Name: Thai local dialect benchmark
Creator: 新加坡国立大学
Published: 2025-04-08 18:49:45
License: 暂无描述

arXiv2025-04-08 更新2025-04-10 收录

下载链接：

https://github.com/mrpee rat/Thai_local_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

本研究引入了一个用于评估大型语言模型在处理泰国本地方言时的表现的新基准。该基准涵盖了北部的Lanna方言、东北部的Isan方言和南部的Dambro方言。数据集包含了针对总结、问答、翻译、对话和食物相关任务的样本，所有的输入、上下文、提示和标签都是由本地方言的母语者翻译的。该数据集旨在评估LLM对泰国本地方言的理解和生成能力。

This study introduces a novel benchmark for evaluating the performance of large language models (LLMs) when handling Thai regional dialects. The benchmark covers three primary dialects: Northern Thai (Lanna), Northeastern Thai (Isan), and Southern Thai (Dambro). The dataset includes samples for tasks such as summarization, question answering, translation, dialogue, and food-related tasks. All inputs, contexts, prompts, and labels were translated by native speakers of the respective local dialects. This benchmark aims to assess the understanding and generation capabilities of LLMs towards Thai regional dialects.

提供机构：

新加坡国立大学

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

该数据集的构建基于泰国三种主要地方方言——北部（兰纳）、东北部（伊桑）和南部（丹布罗）的文本数据，涵盖了摘要、问答、翻译、对话及食物相关任务等五项自然语言处理任务。数据收集过程包括从泰国LLM排行榜中选取样本，并由方言母语者将中央泰语样本翻译为各地方言，确保语言的地道性和多样性。此外，数据集还引入了人工评估机制，通过方言母语者对生成内容的流畅性和方言准确性进行评分，进一步提升了数据的可靠性。

特点

该数据集的特点在于其专注于泰国地方方言的多样性和复杂性，涵盖了三种主要方言的文本数据，并针对五项NLP任务进行了系统性的评估。数据集中不仅包含标准翻译任务，还特别设计了与地方文化和食物相关的开放式任务，以全面评估模型在方言理解和生成方面的能力。此外，数据集引入了创新的方言评估指标，能够有效衡量模型在方言生成和流畅性方面的表现，弥补了传统评估方法在方言文本上的不足。

使用方法

该数据集的使用方法包括利用其提供的五项任务（摘要、问答、翻译、对话及食物相关任务）对大型语言模型进行评估。用户可以通过对比模型在中央泰语和地方方言任务上的表现，评估模型在方言处理上的能力。数据集中的人工评估指标和方言评估指南可用于进一步分析模型的方言生成质量和流畅性。此外，数据集还提供了详细的标注和评估标准，支持用户进行定制化的模型测试和性能分析。

背景与挑战

背景概述

Thai Local Dialect Benchmark数据集由Peerat Limkonchotiwat等学者于2025年提出，旨在评估大语言模型（LLMs）在泰语方言中的表现。该数据集涵盖了泰国的三种主要方言：北部方言（Lanna）、东北部方言（Isan）和南部方言（Dambro），并针对五种自然语言处理任务（摘要、问答、翻译、对话和食物相关任务）进行了评估。研究团队来自新加坡国立大学、Vidyasirimedhi科学技术研究所和SCB10X等机构。该数据集的创建填补了泰语方言评估领域的空白，为研究LLMs在低资源语言中的鲁棒性和一致性提供了重要工具。

当前挑战

Thai Local Dialect Benchmark数据集面临多重挑战。在领域问题方面，LLMs在处理泰语方言时表现显著下降，尤其是在摘要和翻译任务中，仅GPT-4和Gemini2等专有模型展现出一定的方言生成能力。在构建过程中，研究团队遇到了方言书写系统不统一、词汇拼写多样性以及缺乏标准化评估指标等问题。传统评估方法（如BLEU和ROUGE-L）难以准确衡量方言文本的流畅性，因为它们依赖于标准词典的分词，而方言词汇往往未被收录。此外，方言之间的词汇共享和独特词汇增加了数据标注和评估的复杂性。

常用场景

经典使用场景

Thai Local Dialect Benchmark数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLMs）在泰语方言中的表现。该数据集覆盖了泰国的北部（Lanna）、东北部（Isan）和南部（Dambro）方言，通过五项任务（摘要、问答、翻译、对话和食物相关任务）全面测试模型的方言理解与生成能力。其经典使用场景包括多方言文本生成、跨方言翻译以及方言特定的对话系统开发。

解决学术问题

该数据集解决了LLMs在低资源语言和方言中性能评估的空白问题。传统评估方法（如BLEU和ROUGE-L）难以准确衡量方言文本的流畅性和准确性，而该数据集通过引入人工评估和新颖的方言特定指标，填补了这一技术缺口。其意义在于推动多方言NLP研究，并为方言感知模型的优化提供了基准。

衍生相关工作

该数据集衍生了一系列探索方言NLP的研究，例如扩展至东南亚其他语言的方言评估框架（如印尼语、菲律宾语），以及结合人类评估与自动指标的混合评测方法。相关工作还包括改进tokenizer以处理非标准拼写的方言词汇，或开发方言-标准语平行语料库以增强模型迁移能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集