bombman/thwiki-2026-super-clean-1k

Name: bombman/thwiki-2026-super-clean-1k
Creator: bombman
Published: 2026-04-25 19:28:53
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/bombman/thwiki-2026-super-clean-1k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从泰语维基百科（2026年版）中提取的，专注于“专业清洁”级别，专门用于蒸馏和微调大型语言模型（LLM）。主要特点包括：高信息密度（仅选择超过1000个字符且泰语比例超过50%的文章）、专业清理（删除图像文件名、维基符号和空括号）、保留实体（保留引号以保留特定名称和地点的范围）以及随机化（从整个文件中随机选取数据以确保内容的多样性）。

This dataset is extracted from Thai Wikipedia (Dump 2026) with a focus on Pro-Clean level, specifically designed for distillation and fine-tuning LLMs. Key features include: High Information Density (selecting only articles longer than 1,000 characters with Thai content > 50%), Pro-Cleaned (removing image filenames, Wiki symbols, and empty brackets), Entity Preserved (keeping quotation marks to maintain the scope of specific names and places), and Randomized (randomly picking data from the entire file to ensure content diversity).

提供机构：

bombman

搜集汇总

数据集介绍

构建方式

该数据集源自2026年版的泰语维基百科转储文件，经过严格的“专业清洁”流程构建而成。构建过程中，首先筛选出内容长度超过1000字符且泰语占比超过50%的文章，以保证高信息密度。随后，系统性地清除了图片文件名（如.jpg、.png）、维基语法符号（如==、'''）以及空的括号标记，确保文本纯净。为保留关键实体，特意保留了如引号“ ”这类标记专有名词和地名的符号。最终，从全部文件中随机抽取数据，形成内容多样化的子集。

使用方法

此数据集主要面向文本生成任务，特别适用于泰语大语言模型的精细调优与知识蒸馏。使用者可直接将其作为标准文本语料库，用于因果语言模型（Causal LM）的预训练或监督式微调。由于数据已高度清洁化处理，通常无需额外清洗步骤，仅需根据模型词表进行适当分词即可。建议在训练时搭配随机采样策略，以充分利用其内容多样性。

背景与挑战

背景概述

泰语作为非英语语言之一，在自然语言处理领域长期面临语料资源匮乏的困境。为缓解这一瓶颈，thwiki-2026-super-clean-1k数据集应运而生，其创建于2026年，由专注于低资源语言优化的研究团队开发，核心研究问题在于构建高信息密度、低噪声的泰语文本语料，以支持大语言模型的蒸馏与微调。该数据集基于2026年版泰语维基百科转储文件，通过严格过滤条件筛选出信息丰富、语言纯净的优质文本，旨在推动泰语生成式AI的研究进展，对低资源语言数据集构建范式和泰语NLP社区产生了重要影响。

当前挑战

该数据集面临的挑战主要体现在两个层面。首先是领域问题的挑战：泰语自然语言处理长期受限于训练数据质量参差不齐，尤其是维基百科原始文本中混杂大量图片标记、Wiki格式符号和低信息密度内容，阻碍了语言模型的语义理解与生成能力，而本数据集通过实施“专业清洁”流程，尝试解决这一基础性瓶颈。其次是构建过程中的挑战：在数据清洗时需精准剔除符号垃圾——如文件名后缀和空括号——同时保留关键实体标记（如引号），以维持命名实体边界并避免语义断裂。此外，仅选取超过1000字符且泰语占比过半的长文本，在保证信息密度的同时，也面临如何平衡筛选严格性与数据集规模不足之间的张力，从而确保语料多样性与实用性的统一。

常用场景

经典使用场景

在泰语自然语言处理领域，thwiki-2026-super-clean-1k数据集凭借其高信息密度与极致的清洁度，成为文本生成任务，特别是大语言模型蒸馏与微调场景下的基准资源。研究者通常将其作为高质量泰语语料库，用于训练或优化能够生成连贯、语义丰富泰语文本的模型，其在消除噪声标记的同时保留实体边界的设计，为模型学习真实语言分布提供了可靠支撑。

解决学术问题

该数据集有效解决了低资源语言——泰语——在预训练与微调阶段语料匮乏且质量参差不齐的学术困境。通过严格的过滤与清理策略，它剔除了维基百科中常见的格式残留与非泰语噪声，使研究能够聚焦于语言本身的结构与语义学习，从而显著提升了泰语模型在下游任务上的性能上限，推动了小语种自然语言处理技术的进展。

实际应用

在实际应用中，该数据集为构建面向泰语用户的对话系统、内容生成工具与智能客服提供了扎实的训练基础。其清洁且多样的内容特性，使得基于该数据集微调的模型能够产出更为地道、准确且上下文相关的泰语回答，广泛应用于教育辅助、新闻摘要生成、以及泰语社区的多语种交互平台。

数据集最近研究