kanitakorn-th-sft

Hugging Face2026-05-18 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/Jnx03/kanitakorn-th-sft

下载链接

链接失效反馈

官方服务：

资源简介：

Kanitakorn是一个专注于泰语任务的监督微调（SFT）语料库及相关工具链。该数据集旨在对Qwen3-8B和Qwen3-4B-Instruct-2507等大语言模型进行微调，以提升其在多项泰语基准测试上的性能，使其超越Typhoon-S-8B模型。数据集原始包含4,147条记录，通过利用Typhoon-S-instruct-post-training数据集进行第二轮增强后，总规模扩展至23,715条。数据涵盖多种任务类型，构成了一个多领域的泰语SFT语料库。数据集配套提供了完整的训练和评估工具链，包括LoRA SFT训练器、多种推理脚本、针对不同基准测试（如ThaiExam、MATH、HotpotQA、IFEval-TH、MT-Bench-TH等）的评分模块以及数据集过滤和增强管道。该资源主要用于泰语大语言模型的指令微调、性能基准测试以及相关研究。

Kanitakorn is a supervised fine-tuning (SFT) corpus and related toolchain focused on Thai language tasks. This dataset is designed to fine-tune large language models such as Qwen3-8B and Qwen3-4B-Instruct-2507, aiming to enhance their performance on multiple Thai benchmark tests and surpass the Typhoon-S-8B model. Originally containing 4,147 records, the dataset was expanded to 23,715 entries through a second round of enhancement using the Typhoon-S-instruct-post-training dataset. It covers various task types, forming a multi-domain Thai SFT corpus. The dataset is accompanied by a comprehensive training and evaluation toolchain, including a LoRA SFT trainer, multiple inference scripts, scoring modules for different benchmarks (e.g., ThaiExam, MATH, HotpotQA, IFEval-TH, MT-Bench-TH), as well as data filtering and enhancement pipelines. This resource is primarily used for instruction fine-tuning, performance benchmarking, and related research on Thai large language models.

创建时间：

2026-05-17

搜集汇总

数据集介绍

构建方式

该数据集以泰语为核心，构建了一个包含4,147条初始记录、经第二轮增强后扩展至23,715条的高质量监督微调语料库。数据集来源于8个不同的任务家族，涵盖考试、数学推理、阅读理解等泰国语境内多样化的语言与知识场景。构建过程中采用了Typhoon-S-instruct-post-training数据集进行第二轮扩充，并配合特定的筛选与验证流程，确保数据的质量与领域适配性。此外，项目中包含可复现的训练与评估工具链，支持LoRA方式的参数高效微调。

特点

该数据集最显著的特点在于其针对泰语基准测试的极致优化能力。经过微调的Qwen3-8B模型在ThaiExam、MATH500-TH、HotpotQA等多项评估中全面超越Typhoon-S-8B，展现了其在泰语语境下卓越的指令跟随与推理表现。数据集附带了完整的评估工具链，包括多种法官模型路由与评分机制，确保了基准测试的公正性与可重复性。4B版本亦能在多数指标上击败参数量翻倍的对照模型，凸显该数据集的效率与潜力。

使用方法

使用者可通过Git克隆该数据集仓库，并利用内置的benchmark_eval.py脚本生成评估输入，随后使用huggingface-cli下载预训练的LoRA适配器权重。评估时需配置OpenAI或OpenRouter兼容的API密钥以及法官模型，通过smart_eval.py执行推理生成预测结果，最后调用score_predictions函数进行打分。该流程高度自动化，适合研究者快速复现报告中的性能数据，或基于此工具链调整并评估自定义的泰语模型。

背景与挑战

背景概述

Kanitakorn是由研究者Jnx03于2026年创建的一个专注于泰语的大规模监督微调（SFT）语料库及工具链，旨在提升大语言模型在泰语基准测试上的表现。该数据集包含4,147条初始记录，经过第二轮数据增强后扩展至23,715条，核心研究问题是如何通过高质量的泰语SFT数据与高效的评估工具链，使通用模型（如Qwen3系列）在泰语任务上超越专门训练的泰语模型（如Typhoon-S-8B）。该数据集在泰语考试（ThaiExam）、数学推理（MATH500-TH）和问答（HotpotQA）等基准测试中取得了显著优势，证明了针对低资源语言定制化SFT数据的巨大潜力，对推动泰语自然语言处理研究具有重要影响。

当前挑战

该数据集所解决的领域问题核心挑战在于泰语作为低资源语言，缺乏高质量、多样化的监督微调数据，导致通用大语言模型在泰语任务上表现不佳。构建过程中面临的主要挑战包括：首先，需要从现有泰语数据集（如Typhoon-S-instruct-post-training）中过滤并增强出符合目标基准的高质量样本；其次，在有限的计算资源（单张A100 GPU）和极短的训练时间窗口（24小时）内，设计高效的LoRA微调策略和多任务评估框架；此外，还需构建能够覆盖泰语考试、数学推理、百科问答、指令遵循等多维度的专用评估工具链，以实现模型能力的精准量化与迭代优化。

常用场景

经典使用场景

Kanitakorn 泰语 SFT 语料库专为指令微调（Supervised Fine-Tuning）设计，在低资源语言大模型领域开辟了崭新的训练范式。该数据集包含 4,147 条原始记录，经第二轮数据增强后扩充至 23,715 条，覆盖泰语考试、数学推理、开放域问答、代码生成及指令遵循等多维任务族。研究者可借助其配套的 LoRA 微调工具链，对 Qwen3-8B 或 4B 基座模型进行高效参数微调，从而在泰语特定基准上取得突破性性能提升，堪称面向东南亚语言场景的轻量级微调利器。

衍生相关工作

围绕该数据集的构建理念，衍生出多项具有启发性的研究工作。首先是 Typhoon 系列模型数据筛选工具的诞生，通过 filter_typhoon.py 实现了对大规模泰语指令数据的针对性清洗与结构对齐。其次，第二轮数据增强策略（prep_round2.py）展示了如何利用基座模型自生成数据进行迭代式质量提升，这为半监督 SFT 提供了轻量级方案。此外，该工具链中设计的多裁判路由架构（per-family judge routing）成为评估非英语模型的关键基础设施，后续工作如 ThaiBench 扩展评估集与 LoRA 适配器跨语言知识蒸馏皆可溯源于此。

数据集最近研究