five

clean_thaiwikipedia

收藏
Hugging Face2025-08-13 更新2025-08-14 收录
下载链接:
https://huggingface.co/datasets/wannaphong/clean_thaiwikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含标题(title)、标识符(id)和文本(text)字段的泰语文本数据集,适用于文本生成任务。数据集分为一个部分,共有约174万个例子,总大小约为1.27GB,下载大小约为473MB。数据集遵循知识共享署名-相同方式共享3.0(cc-by-sa-3.0)许可证。

这是一个包含标题(title)、标识符(id)和文本(text)字段的泰语文本数据集,适用于文本生成任务。数据集分为一个部分,共有约174万个例子,总大小约为1.27GB,下载大小约为473MB。数据集遵循知识共享署名-相同方式共享3.0(cc-by-sa-3.0)许可证。
创建时间:
2025-08-11
原始信息汇总

数据集概述

基本信息

  • 数据集名称: clean_thaiwikipedia
  • 许可证: CC-BY-SA-3.0
  • 语言: 泰语 (th)
  • 大小类别: 100K < n < 1M

数据集结构

  • 特征:
    • title: 字符串类型
    • id: 字符串类型
    • text: 字符串类型
  • 拆分:
    • 20250703.th:
      • 字节数: 1,269,831,313
      • 样本数: 174,108

下载与存储

  • 下载大小: 473,497,461 字节
  • 数据集大小: 1,269,831,313 字节

配置

  • 默认配置:
    • 数据文件路径: data/20250703.th-*

任务类别

  • 文本生成 (text-generation)
搜集汇总
数据集介绍
main_image_url
构建方式
clean_thaiwikipedia数据集基于泰语维基百科的开放内容构建,采用严格的预处理流程确保数据质量。原始文本经过清洗和标准化处理,移除了非文本元素、重复内容和低质量条目,保留了174,108条结构化的条目数据。每条记录包含标题、唯一标识符和正文文本三个核心字段,数据以标准化格式存储便于后续分析。
特点
该数据集作为泰语自然语言处理领域的重要资源,具有显著的语料规模和专业性特征。文本内容涵盖泰语维基百科的广泛主题,语言表达规范且领域覆盖面广。数据集采用CC-BY-SA 3.0许可协议,确保了学术和商业使用的合法性。其174,108条高质量文本记录,总规模达1.27GB,为泰语文本生成任务提供了充足的训练素材。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,支持文本生成等NLP任务的模型训练。数据集已预分割为单一训练集,用户可根据需要进一步划分验证集和测试集。典型应用场景包括泰语语言模型预训练、文本摘要生成和机器翻译系统开发。使用时需注意遵守知识共享署名-相同方式共享3.0协议的规定。
背景与挑战
背景概述
clean_thaiwikipedia数据集作为泰语自然语言处理领域的重要语料资源,由开源社区基于维基百科泰语版本构建而成。该数据集发布于2025年7月,收录了超过17万条经过清洗的泰语条目,涵盖标题、ID和正文文本三个核心字段。在东南亚语言处理研究相对匮乏的背景下,该数据集的建立为泰语文本生成、机器翻译等任务提供了高质量的基准数据,有效弥补了低资源语言在人工智能研究中的短板。其采用的CC-BY-SA 3.0许可协议也确保了学术和商业应用的灵活性,推动了泰语数字人文研究的发展。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,泰语作为孤立语具有复杂的书写系统和黏着特性,导致传统NLP模型在形态分割、语义理解等任务上表现欠佳;在构建过程中,原始数据的非结构化特性要求开发者解决编码转换、特殊字符过滤等问题,而泰语特有的皇室用语等敏感内容筛选也增加了数据清洗的复杂度。此外,与其他维基百科语料相比,泰语版本的编辑活跃度较低,数据更新的时效性维护成为持续挑战。
常用场景
经典使用场景
在自然语言处理领域,clean_thaiwikipedia数据集作为泰语维基百科的精选版本,为泰语文本处理任务提供了丰富的语料资源。该数据集广泛应用于语言模型预训练、机器翻译系统开发以及跨语言信息检索研究,尤其在低资源语言处理中展现出独特价值。其经过清洗的文本结构和规范的标注格式,显著降低了研究者处理原始数据的门槛。
衍生相关工作
该数据集催生了多项标志性研究成果,包括基于BERT架构的泰语预训练模型ThaiBERT,以及融合多语言知识的XLM-R变体。在ACL等顶级会议上,以该数据集为基础的泰语命名实体识别框架和语义相似度计算模型,推动了东南亚语言处理技术的标准化进程。
数据集最近研究
最新研究方向
在泰语自然语言处理领域,clean_thaiwikipedia数据集作为高质量文本资源,近期研究聚焦于低资源语言模型的预训练优化。该数据集纯文本特性支持泰语BERT、GPT等模型的语料构建,尤其在解决泰语复杂书写系统和黏着语特征方面具有不可替代性。2023年东南亚多语言AI竞赛中,基于该数据集训练的泰语-英语神经机器翻译系统展现了优异的跨语言对齐能力,推动了东盟地区多语言技术标准化进程。学术界正探索如何利用其174K条语料解决泰语分词歧义、命名实体识别等核心问题,这对构建东南亚语言技术生态具有战略意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作