five

WangchanThaiInstruct

收藏
arXiv2025-08-21 更新2025-08-23 收录
下载链接:
https://huggingface.co/collections/airesearch/wangchan-thai-instruction-6835722a30b98e01598984fd
下载链接
链接失效反馈
官方服务:
资源简介:
WangchanThaiInstruct是一个由人类作者编写的泰语指令数据集,用于评估和改进LLM在泰语指令上的性能。数据集包含来自医疗、法律、金融和零售四个领域的指令,以及头脑风暴、分类、封闭式问答、创意写作、多项选择、开放式问答和摘要等七种任务类型。数据集包含35,014个人类编写的指令-响应对,分为28,098个训练样本和6,916个测试样本。数据集的创建过程采用了多阶段质量控制,包括人工质量控制和专家质量控制,以确保数据集的质量和可靠性。WangchanThaiInstruct旨在支持文化评估和指令调整,以解决低资源语言中的LLM性能问题。

WangchanThaiInstruct is a Thai instruction dataset authored by human writers, designed for evaluating and improving the performance of Large Language Models (LLMs) on Thai-language instruction tasks. The dataset includes instructions from four domains: healthcare, law, finance, and retail, as well as seven task types: brainstorming, classification, closed-ended question answering, creative writing, multiple choice, open-ended question answering, and summarization. It contains 35,014 human-written instruction-response pairs, split into 28,098 training samples and 6,916 test samples. The dataset was developed with a multi-stage quality control framework covering both manual and expert quality checks to ensure its quality and reliability. WangchanThaiInstruct aims to support cultural evaluation and instruction tuning to address LLM performance issues in low-resource languages.
提供机构:
AI Singapore, VISTEC, SCB 10X, MBZUAI
创建时间:
2025-08-21
搜集汇总
数据集介绍
main_image_url
构建方式
在泰语自然语言处理领域,高质量文化敏感数据集的构建面临严峻挑战。WangchanThaiInstruct采用三阶段质量控制流程:首先由母语标注者从86个泰国权威网站采集27,351份文档,依据七类任务模板生成指令-回答对;随后由医学、法律等领域的专业学者验证答案的事实准确性与文化相关性;最后由AI研究人员统一格式化标准,确保数据符合指令微调的最佳实践。整个过程严格遵循文档级数据划分原则,有效避免了训练集与测试集之间的信息泄露。
特点
该数据集涵盖医疗、法律、金融和零售四大专业领域,包含开放问答、分类、创意写作等七类任务,总计35,014条全人工撰写的泰语指令-回答对。其核心特征体现在文化特异性标注机制——31%的样本包含泰国本土文化元素,如法律条文中的专属条款、零售领域的本地营销策略等。数据分布经过精密设计,测试集6,916条样本均配备人工标注的推理链条,支持对模型文化认知深度的细粒度评估。
使用方法
研究者可基于28,098条训练样本进行指令微调实验,通过控制变量法比较本土数据与机器翻译数据的效果差异。测试集支持零样本评估范式,采用LLM-as-Judge机制结合人工偏好对齐指标,从事实准确度、推理质量和文化适配性三个维度量化模型性能。数据集兼容主流训练框架,提供标准化提示词模板,特别适用于分析模型在长上下文、专业术语和文化敏感场景下的表现。
背景与挑战
背景概述
WangchanThaiInstruct数据集由AI Singapore、VISTEC等机构于2025年联合构建,旨在解决泰语作为低资源语言在大型语言模型评估与指令微调中的研究空白。该数据集涵盖医疗、法律、金融和零售四大专业领域,包含七类任务类型,全部由人工撰写而非机器翻译,确保了文化特异性和领域准确性。其创新性在于通过多阶段质量控制流程,融合领域专家与AI研究者的双重验证,为泰语自然语言处理提供了首个兼具文化敏感性与专业深度的评估基准,显著推动了东南亚语言模型的现实应用研究。
当前挑战
该数据集核心挑战在于解决泰语文化背景下的领域特异性指令理解问题,例如模型需准确解析泰国法律条文或医疗术语中的文化隐含信息。构建过程中面临三重挑战:一是需从86个本土网站人工筛选并标注2.7万篇文档,避免机器翻译导致的文化失真;二是依赖领域专家对法律、医疗等专业内容进行双重验证,确保事实准确性与文化适配性;三是设计兼顾长文本上下文与多任务类型的评估框架,例如模型需处理最长2.6万token的文本并保持推理一致性。
常用场景
经典使用场景
在泰语自然语言处理研究中,WangchanThaiInstruct数据集被广泛用于评估大语言模型在文化敏感场景下的指令遵循能力。该数据集覆盖法律、金融、医疗和零售四大专业领域,通过人类专家标注的指令-回答对,为模型提供了涵盖选择题、开放问答、摘要生成等七类任务的标准化测试环境。研究团队采用零样本评估框架,系统检验模型在泰语文化背景下的推理准确性和语言适应性,尤其在法律条文解释和本土商业实践等需要文化认知的任务中展现出独特价值。
实际应用
在实际应用层面,该数据集支撑了泰语专业服务场景的智能化升级。法律领域可用于构建泰国法规咨询系统,医疗模块能训练具备本地药物知识诊断助手,零售板块则优化电商平台的泰语客服响应质量。金融机构利用其财务问答数据开发合规检查工具,政府部门借助文化敏感内容生成功能改善公共服务沟通效率。这些应用显著提升了泰语AI系统在专业场景中的实用性和可靠性。
衍生相关工作
该数据集催生了多项泰语大模型创新研究,包括基于原生数据训练的SEA-LION多语言模型优化、Typhoon系列多模态模型的文化适应性增强,以及OpenThaiGPT在合成数据与真实指令数据融合方面的探索。其评估方法论被ThaiLLM Leaderboard基准采纳,数据构建流程为东南亚其他语言(如印尼语、越南语)的类似数据集开发提供了标准化范本,推动了区域化AI研究的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作