Mangosteen

Name: Mangosteen
Creator: Vidyasirimedhi Institute of Science and Technology, SCB10X, Chulalongkorn University, AI Singapore
Published: 2025-07-22 22:22:35
License: 暂无描述

arXiv2025-07-22 更新2025-08-14 收录

下载链接：

https://huggingface.co/collections/aisingapore/wangchanlion-v3-687a362d8f0ea2fe4077c6b3

下载链接

链接失效反馈

官方服务：

资源简介：

Mangosteen是一个泰语预训练语料库，包含470亿个token，旨在提高泰语语言模型的质量。该数据集由泰国定制化的Dolma流程构建，包括自定义基于规则的泰语语言ID、修订的C4/Gopher质量过滤器、泰语训练内容过滤器，以及来自维基百科、皇家公报文本、OCR提取书籍和CC许可的YouTube字幕等精选的非网络来源。该数据集通过GPT-2模型进行了系统性的消融研究，结果表明，在泰语基准测试中，Mangosteen数据集相较于未处理的CommonCrawl数据集，文档数量从2亿减少到2500万，同时SEA-HELM NLG得分从3提高到11。此外，一个8B参数的SEA-LION模型在Mangosteen数据集上进行持续预训练后，在泰语基准测试中超越了SEA-LION-v3和Llama-3.1模型约4个百分点。研究团队提供了完整的流程代码、清理清单、语料库快照和所有检查点，为未来的泰语和区域LLM研究提供了完全可复制的基石。

Mangosteen is a Thai pre-training corpus with 47 billion tokens, designed to improve the quality of Thai language models. This corpus is constructed using a Thailand-customized Dolma pipeline, which includes a rule-based custom Thai language ID system, revised C4/Gopher quality filters, Thai training content filters, and curated non-web sources such as Wikipedia, Royal Gazette texts, OCR-extracted books, and CC-licensed YouTube subtitles. A systematic ablation study conducted using the GPT-2 model revealed that, compared to the raw CommonCrawl dataset, the Mangosteen corpus reduced the number of documents from 200 million to 25 million, while improving the SEA-HELM NLG score from 3 to 11 in Thai benchmark tests. Furthermore, an 8B-parameter SEA-LION model continually pre-trained on the Mangosteen corpus outperformed both SEA-LION-v3 and Llama-3.1 models by approximately 4 percentage points in Thai benchmark evaluations. The research team has made available the complete pipeline code, cleaning checklist, corpus snapshots, and all checkpoints, providing a fully reproducible foundation for future Thai and regional LLM research.

提供机构：

Vidyasirimedhi Institute of Science and Technology, SCB10X, Chulalongkorn University, AI Singapore

创建时间：

2025-07-19

搜集汇总

数据集介绍

构建方式

Mangosteen数据集的构建采用了针对泰语优化的Dolma数据处理流程，通过多阶段筛选机制确保数据质量。首先从Common Crawl和FineWeb2中提取泰语内容，采用基于规则的泰文字符识别方法进行语言标识。随后应用改进的C4/Gopher质量过滤器，包括调整文档长度阈值（200-100,000词）、泰文字符占比（≥80%）等语言特异性规则。通过Bloom过滤器实现URL和文本重叠去重，并部署基于FastText的成人内容与赌博内容分类器。此外整合了维基百科、皇家公报文本、OCR提取书籍及CC授权YouTube字幕等非网络来源，最终形成包含3000万文档、474亿标记的语料库。

特点

该数据集的核心特点体现在三方面：语言特异性方面，采用泰文字符比例检测和nlpO3分词器，有效处理无空格分隔的泰文文本；内容质量方面，通过定制化规则过滤低质量文本（如删除省略号超过30%的文档），并引入泰国本土化词典识别敏感内容；数据多样性方面，网络数据占比97.3%（45.9B标记）与非网络数据2.7%（1.5B标记）形成互补，覆盖金融、法律、教育等六大领域。特别设计的泰语字符正则表达式检测器，相较FastText等通用工具将误判率降低4倍。

使用方法

使用该数据集时建议分三个阶段：预处理阶段需加载Dolma-Thai定制管道，配置ICU分词器处理泰语复合词；训练阶段推荐采用SEA-LION架构进行持续预训练，学习率设为5e-6并配合cosine_with_warmup调度器；评估阶段可使用SEA-HELM和Thai LLM Benchmark，重点关注NLG任务表现。对于消融研究，可通过分步激活语言识别（+9.2% SEA-HELM）、质量过滤（+8.4%）等模块验证各环节贡献。数据集提供文档级和段落级去重版本，支持灵活选择训练粒度。

背景与挑战

背景概述

Mangosteen是由Vidyasirimedhi Institute of Science and Technology、SCB10X、Chulalongkorn University和AI Singapore等机构的研究人员于2025年推出的一个泰语预训练语料库，旨在解决泰语语言模型预训练数据质量不高的问题。该数据集包含470亿个标记，通过定制化的数据处理流程（如基于规则的语言识别、改进的C4/Gopher质量过滤器以及泰语特定的内容过滤器）构建而成。Mangosteen的推出填补了泰语预训练数据集的空白，为泰语自然语言处理研究提供了高质量的数据支持。

当前挑战

Mangosteen数据集面临的挑战主要包括：1) 泰语特有的语言和文化特征使得通用的数据处理流程难以有效过滤噪声和有害内容（如赌博相关内容）；2) 数据构建过程中需要处理多种来源的数据（如Common Crawl、维基百科、OCR提取的书籍等），确保数据的多样性和质量；3) 现有的语言识别工具（如FastText）对泰语的支持不足，需开发定制化的解决方案。此外，数据集的构建还需解决计算资源限制和数据处理效率的问题。

常用场景

经典使用场景

Mangosteen数据集作为首个专为泰语优化的开源预训练语料库，其经典应用场景聚焦于东南亚语言模型的开发与优化。该数据集通过融合Common Crawl网络文本与精选非网络来源（如皇家公报、OCR书籍、CC授权视频字幕），为泰语NLP任务提供了覆盖法律、金融、教育等多领域的文本资源。在SEA-LION等区域大模型持续预训练中，该数据集展现出对低资源语言建模的关键支撑作用，尤其在处理泰文连写字符和文化特异性内容时具有不可替代性。

衍生相关工作

该数据集已衍生出两条重要研究脉络：技术层面催生了基于ThaiCharRatioTagger的泰语专用语言识别工具，被后续OpenThaiGPT等项目采用；应用层面则启发了SambaLingo等多语言模型的词汇扩展方法。其构建方法论更被迁移至老挝语、柬埔寨语等东南亚语言数据集建设中，形成区域性的Dolma-Mekong改进框架。近期发布的Typhoon-3模型通过结合Mangosteen与Qwen-2数据，在泰语数学推理任务上达到SOTA，验证了混合语料策略的有效性。

数据集最近研究