WangchanLION-Web

Name: WangchanLION-Web
Creator: AI Singapore
Published: 2025-07-22 10:35:48
License: 暂无描述

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/aisingapore/WangchanLION-Web

下载链接

链接失效反馈

官方服务：

资源简介：

Magostreen数据集是一个由各种来源收集的泰语文本数据集，旨在为文本生成和填空任务提供训练数据。数据集经过去重和清洗，以确保数据质量。它包含Common Crawl和Fineweb2的数据，并针对泰语进行了优化，包括使用基于规则的方法进行语言识别和更新内容过滤器以更有效地去除不适当内容。

提供机构：

AI Singapore

创建时间：

2025-07-09

原始信息汇总

数据集概述

基本信息

名称: Magostreen
许可证: odc-by
任务类别: 文本生成、填充掩码
语言: 泰语 (th)
标签: 金融、法律、医疗
规模: 10M < n < 100M

数据收集与处理

非公共爬取数据:
- 文档总数: 425,304 份
- 处理步骤: 去重后划分为训练集和验证集
公共爬取数据:
- 来源: Common Crawl 和 Fineweb2
- 文档数: 29.7 M
- 词元数: 45.9 B

数据清洗流程

语言识别: 使用基于泰语脚本的规则方法替代 FastTex
URL 去重: 使用 Bloom 过滤器去除重复数据
质量过滤: 基于 C4 和 Gopher 规则，针对泰语进行优化
内容过滤: 升级过滤器以更高效去除 NSFW、电话号码和赌博内容
文本重叠去重: 使用 Bloom 过滤器去除文本重叠

相关资源

预训练数据 (网页): https://huggingface.co/datasets/aisingapore/WangchanLION-Web
预训练数据 (精选): https://huggingface.co/datasets/aisingapore/WangchanLION-Curated
预训练模型: https://huggingface.co/aisingapore/WangchanLION-v3
SFT 模型: https://huggingface.co/aisingapore/WangchanLION-v3-IT
论文: https://arxiv.org/abs/2507.14664
博客: https://sea-lion.ai/sea-lion-wangchanlionv3/
GitHub: https://github.com/vistec-AI/Mangosteen

搜集汇总

数据集介绍

构建方式

在泰语自然语言处理领域，WangchanLION-Web数据集通过多源异构数据整合与精细化清洗流程构建而成。其核心数据来源于Common Crawl网络爬虫、Fineweb2公开语料及专项采集的42万余篇非通用爬虫文本，采用布隆过滤器实现URL与文本重叠去重，并创新性地针对泰语特性改进了语言识别模块，将基于FastText的方案替换为规则驱动的泰文字符检测机制。质量过滤环节融合C4与Gopher标准并适配泰语语法特征，内容过滤层则强化了对NSFW材料、电话号码及赌博信息的识别效能，形成端到端的语料净化管道。

特点

该数据集显著特征体现在其大规模泰语语料覆盖与领域特异性。语料规模达到千万级文档量级，涵盖金融、法律、医疗等专业领域文本，弥补了传统网络爬虫数据在垂直领域的缺失。语言纯度方面，通过定制化清洗流程确保泰语文本主导地位，同时严格控制低质量与敏感内容。数据集采用开放数据许可协议，支持文本生成与掩码语言建模任务，为泰语大模型预训练提供了兼具广度与深度的语言资源。

使用方法

研究者可通过HuggingFace平台直接加载数据集进行模型训练与评估。典型应用场景包括泰语语言模型预训练、领域适应性微调及多模态学习任务。使用时应遵循数据拆分规范，其中专项采集的非通用爬虫文本已划分为训练集与验证集，Common Crawl衍生数据需结合提供的清洗管道预处理。建议配合发布的WangchanLION-v3预训练模型与指令微调模型开展对比实验，具体实施细节可参考关联论文的技术方案与GitHub代码库。

背景与挑战

背景概述

在自然语言处理领域，高质量语料库的构建对低资源语言模型的发展至关重要。WangchanLION-Web数据集由新加坡人工智能研究院（AI Singapore）联合泰国多所学术机构于2025年推出，旨在解决泰语作为低资源语言在预训练数据方面的短缺问题。该数据集整合了来自Common Crawl网络爬虫、Fineweb2及专项收集的泰语文本，覆盖金融、法律、医疗等多个专业领域，总计包含超过2970万文档和459亿词汇量。通过系统化的数据清洗与去重流程，该数据集显著提升了泰语语言模型的训练效果，为东南亚语言技术研究提供了重要基础设施。

当前挑战

构建泰语预训练数据集面临双重挑战：领域层面需克服泰语语法结构复杂、字符编码特殊以及专业领域术语标准化不足等语言特性问题；技术实施中需针对泰语设计高效的语言识别规则替代通用方案，开发适应本地文化的内容过滤机制（如赌博和NSFW内容识别），并采用布隆过滤器实现大规模文本去重。传统基于FastText的语言识别方法对泰语效率低下，需重构质量评估体系以适应泰语文本特征，同时需平衡数据覆盖率与质量管控的冲突。

常用场景

经典使用场景

在泰语自然语言处理研究中，WangchanLION-Web数据集主要应用于大规模语言模型的预训练任务。该数据集通过整合Common Crawl网络文本和精细筛选的非网络文本，构建了高质量的泰语语料库，为训练生成式与掩码语言模型提供了丰富的语言素材。其覆盖金融、法律、医疗等专业领域的特点，使其成为泰语语言模型开发的核心资源。

衍生相关工作

该数据集催生了多项重要研究工作，包括WangchanLION系列预训练模型及其指令微调版本。相关研究团队进一步开发了面向特定领域的泰语语言模型，推动了泰语文本生成、语义理解等技术的发展。这些衍生工作不仅丰富了泰语NLP工具生态，也为东南亚语言信息处理研究提供了可借鉴的技术范式。

数据集最近研究