five

kanitakorn-th-sft

收藏
Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/Jnx03/kanitakorn-th-sft
下载链接
链接失效反馈
官方服务:
资源简介:
Kanitakorn是一个专注于泰语任务的监督微调(SFT)语料库及相关工具链。该数据集旨在对Qwen3-8B和Qwen3-4B-Instruct-2507等大语言模型进行微调,以提升其在多项泰语基准测试上的性能,使其超越Typhoon-S-8B模型。数据集原始包含4,147条记录,通过利用Typhoon-S-instruct-post-training数据集进行第二轮增强后,总规模扩展至23,715条。数据涵盖多种任务类型,构成了一个多领域的泰语SFT语料库。数据集配套提供了完整的训练和评估工具链,包括LoRA SFT训练器、多种推理脚本、针对不同基准测试(如ThaiExam、MATH、HotpotQA、IFEval-TH、MT-Bench-TH等)的评分模块以及数据集过滤和增强管道。该资源主要用于泰语大语言模型的指令微调、性能基准测试以及相关研究。

Kanitakorn is a supervised fine-tuning (SFT) corpus and related toolchain focused on Thai language tasks. This dataset is designed to fine-tune large language models such as Qwen3-8B and Qwen3-4B-Instruct-2507, aiming to enhance their performance on multiple Thai benchmark tests and surpass the Typhoon-S-8B model. Originally containing 4,147 records, the dataset was expanded to 23,715 entries through a second round of enhancement using the Typhoon-S-instruct-post-training dataset. It covers various task types, forming a multi-domain Thai SFT corpus. The dataset is accompanied by a comprehensive training and evaluation toolchain, including a LoRA SFT trainer, multiple inference scripts, scoring modules for different benchmarks (e.g., ThaiExam, MATH, HotpotQA, IFEval-TH, MT-Bench-TH), as well as data filtering and enhancement pipelines. This resource is primarily used for instruction fine-tuning, performance benchmarking, and related research on Thai large language models.
创建时间:
2026-05-17
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以泰语为核心,构建了一个包含4,147条初始记录、经第二轮增强后扩展至23,715条的高质量监督微调语料库。数据集来源于8个不同的任务家族,涵盖考试、数学推理、阅读理解等泰国语境内多样化的语言与知识场景。构建过程中采用了Typhoon-S-instruct-post-training数据集进行第二轮扩充,并配合特定的筛选与验证流程,确保数据的质量与领域适配性。此外,项目中包含可复现的训练与评估工具链,支持LoRA方式的参数高效微调。
特点
该数据集最显著的特点在于其针对泰语基准测试的极致优化能力。经过微调的Qwen3-8B模型在ThaiExam、MATH500-TH、HotpotQA等多项评估中全面超越Typhoon-S-8B,展现了其在泰语语境下卓越的指令跟随与推理表现。数据集附带了完整的评估工具链,包括多种法官模型路由与评分机制,确保了基准测试的公正性与可重复性。4B版本亦能在多数指标上击败参数量翻倍的对照模型,凸显该数据集的效率与潜力。
使用方法
使用者可通过Git克隆该数据集仓库,并利用内置的benchmark_eval.py脚本生成评估输入,随后使用huggingface-cli下载预训练的LoRA适配器权重。评估时需配置OpenAI或OpenRouter兼容的API密钥以及法官模型,通过smart_eval.py执行推理生成预测结果,最后调用score_predictions函数进行打分。该流程高度自动化,适合研究者快速复现报告中的性能数据,或基于此工具链调整并评估自定义的泰语模型。
背景与挑战
背景概述
Kanitakorn是由研究者Jnx03于2026年创建的一个专注于泰语的大规模监督微调(SFT)语料库及工具链,旨在提升大语言模型在泰语基准测试上的表现。该数据集包含4,147条初始记录,经过第二轮数据增强后扩展至23,715条,核心研究问题是如何通过高质量的泰语SFT数据与高效的评估工具链,使通用模型(如Qwen3系列)在泰语任务上超越专门训练的泰语模型(如Typhoon-S-8B)。该数据集在泰语考试(ThaiExam)、数学推理(MATH500-TH)和问答(HotpotQA)等基准测试中取得了显著优势,证明了针对低资源语言定制化SFT数据的巨大潜力,对推动泰语自然语言处理研究具有重要影响。
当前挑战
该数据集所解决的领域问题核心挑战在于泰语作为低资源语言,缺乏高质量、多样化的监督微调数据,导致通用大语言模型在泰语任务上表现不佳。构建过程中面临的主要挑战包括:首先,需要从现有泰语数据集(如Typhoon-S-instruct-post-training)中过滤并增强出符合目标基准的高质量样本;其次,在有限的计算资源(单张A100 GPU)和极短的训练时间窗口(24小时)内,设计高效的LoRA微调策略和多任务评估框架;此外,还需构建能够覆盖泰语考试、数学推理、百科问答、指令遵循等多维度的专用评估工具链,以实现模型能力的精准量化与迭代优化。
常用场景
经典使用场景
Kanitakorn 泰语 SFT 语料库专为指令微调(Supervised Fine-Tuning)设计,在低资源语言大模型领域开辟了崭新的训练范式。该数据集包含 4,147 条原始记录,经第二轮数据增强后扩充至 23,715 条,覆盖泰语考试、数学推理、开放域问答、代码生成及指令遵循等多维任务族。研究者可借助其配套的 LoRA 微调工具链,对 Qwen3-8B 或 4B 基座模型进行高效参数微调,从而在泰语特定基准上取得突破性性能提升,堪称面向东南亚语言场景的轻量级微调利器。
衍生相关工作
围绕该数据集的构建理念,衍生出多项具有启发性的研究工作。首先是 Typhoon 系列模型数据筛选工具的诞生,通过 filter_typhoon.py 实现了对大规模泰语指令数据的针对性清洗与结构对齐。其次,第二轮数据增强策略(prep_round2.py)展示了如何利用基座模型自生成数据进行迭代式质量提升,这为半监督 SFT 提供了轻量级方案。此外,该工具链中设计的多裁判路由架构(per-family judge routing)成为评估非英语模型的关键基础设施,后续工作如 ThaiBench 扩展评估集与 LoRA 适配器跨语言知识蒸馏皆可溯源于此。
数据集最近研究
最新研究方向
当前,针对低资源语言的指令微调(SFT)数据集构建与模型优化成为大语言模型本土化部署的关键前沿。Kanitakorn-th-sft数据集聚焦泰语领域,通过精心设计的4,147条SFT语料(经第二轮增强扩展至23,715条)与配套工具链,成功将Qwen3-8B模型在ThaiExam、MATH500-TH及HotpotQA等基准测试中超越泰语专用模型Typhoon-S-8B,展示了定向数据增强对多语言大模型能力跃升的显著效果。该工作巧妙地融合了LoRA参数高效微调、LLM裁判自动评估与混合专家评分机制,凸显了低资源语言场景下以少量高质量标注数据驱动性能突破的潜力,为小语种大模型的公平竞争与生态繁荣提供了可复现的范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作