myanmar-text-segmentation-dataset

Hugging Face2025-12-22 更新2025-12-23 收录

下载链接：

https://huggingface.co/datasets/chuuhtetnaing/myanmar-text-segmentation-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为缅甸语文本块分割设计的，采用BIO标记方案进行序列标注任务。输入标记为缅甸语的音节或英语的字符，标签使用B（开始）和I（内部）标记块边界。例如，未分割的文本`မြန်မာနိုင်ငံတွင်`被分解为音节`["မြန်", "မာ", "နိုင်", "ငံ", "တွင်"]`，并标记为`[B, I, B, I, I]`以生成分割后的输出`မြန်မာ နိုင်ငံတွင်`。数据集来源于缅甸维基百科，经过段落提取、语言过滤、标记化和去重等处理。

创建时间：

2025-12-21

原始信息汇总

Myanmar Text Segmentation Dataset

数据集概述

这是一个用于缅甸语块分割的标记分类数据集，采用BIO标记方案为序列标注任务格式化。

数据集详情

来源数据：源自 chuuhtetnaing/myanmar-wikipedia-dataset。
数据处理流程：
1. 段落提取：将每篇维基百科文章按换行符分割，保留完整段落作为独立行。
2. 语言过滤：使用Facebook的fastText语言识别模型对每个段落进行分类，仅保留被识别为缅甸语（__label__mya_Mymr）的段落。
3. 标记化：缅甸语文本使用基于正则表达式的规则被标记化为音节；英语文本被标记化为单个字符。
4. 块边界标注：将维基百科源文本中的原始空格转换为B/I序列标签，其中B标记每个块的第一个标记，I标记后续标记。
5. 去重：从最终数据集中删除重复的标记序列。
数据格式：每个样本包含tokens（标记列表）和segment_tags（分割标签列表）两个字段。
特征：
- tokens：Sequence[string] - 输入标记（缅甸语音节或英文字符）。
- segment_tags：Sequence[ClassLabel] - 块边界标签（B=0，I=1）。

数据集统计

数据分割	样本数量
训练集	544,133
测试集	28,639

技术规格

下载大小：62,467,086 字节
数据集大小：650,790,693 字节
任务类别：标记分类
语言：缅甸语 (my)
标签：myanmar, burmese, nlp, sequence-labeling, text-segmentation, chunk-segmentation
规模分类：100K < n < 1M

使用方式

可通过Hugging Face datasets库加载： python from datasets import load_dataset ds = load_dataset("chuuhtetnaing/myanmar-text-segmentation-dataset")

预期用途

训练缅甸语NLP的块分割模型。
标记分类/序列标注实验。
缅甸语处理研究。

搜集汇总

数据集介绍

构建方式

在缅甸语自然语言处理领域，文本分块是基础且关键的任务。该数据集源自缅甸维基百科语料，通过多阶段流程构建而成。首先从原始文章中提取完整段落，确保模型能够处理多句子输入；随后利用fastText语言识别模型筛选出纯缅甸语内容。文本经过基于正则表达式的音节切分规则处理，将连续字符转化为音节序列，同时保留英文部分的字符级切分。原始文本中的空格信息被转化为BIO标注序列，其中B标记表示分块的起始，I标记表示分块内部延续。最终通过去重操作，形成了包含54万余训练样本和2.8万余测试样本的高质量标注数据。

使用方法

在自然语言处理研究中，该数据集为序列标注任务提供了标准化接口。研究者可通过HuggingFace数据集库直接加载，获取包含tokens和segment_tags两个字段的结构化数据。标注标签采用ClassLabel类型，可直接映射为B/I语义。实际使用时，可借助提供的重构函数将标注序列还原为带空格的文本，直观验证模型输出效果。数据集适用于训练各类序列标注模型，特别是基于Transformer架构的预训练模型微调。其段落级的设计使得模型无需在推理时进行句子切分，可直接处理长文本分块任务，为缅甸语信息处理系统的开发提供了重要基础设施。

背景与挑战

背景概述

缅甸语文本分割数据集由研究者chuuhtetnaing构建，旨在应对缅甸语自然语言处理中文本分块的挑战。该数据集基于缅甸语维基百科语料，采用BIO标注方案，将文本音节或字符序列转化为边界标签，以支持序列标注任务。其创建响应了低资源语言处理的需求，为缅甸语的分词与信息提取研究提供了标准化资源，推动了该语言在计算语言学领域的基础设施发展。

当前挑战

该数据集致力于解决缅甸语文本分块问题，其核心挑战在于缅甸语作为黏着语，缺乏显式分词边界，且音节结构复杂，传统分词方法难以直接适用。构建过程中，面临数据清洗与标注的困难，需设计规则处理音节切分与语言识别，并克服维基百科语料中混合语言与格式噪声的影响，同时确保标注一致性与数据去重，以生成高质量的训练样本。

常用场景

经典使用场景

在缅甸语自然语言处理领域，文本分块是基础且关键的任务，该数据集为此提供了标准化的序列标注资源。其经典使用场景在于训练和评估基于深度学习的序列标注模型，如BiLSTM-CRF或Transformer架构，以自动识别缅甸语文本中的语义单元边界。通过将音节或字符序列与BIO标签对齐，模型能够学习从无空格文本中恢复出符合语言习惯的词汇分块，为下游任务提供结构化的输入。

解决学术问题

该数据集直接应对缅甸语缺乏显式分词符号所带来的学术挑战，解决了低资源语言中文本规范化与结构解析的难题。它使得研究者能够系统探索音节级与字符级表示对分块性能的影响，并为跨语言序列标注模型的迁移学习提供实证基础。其意义在于填补了缅甸语NLP基准数据的空白，推动了针对复杂书写系统的计算语言学理论发展，促进了语言技术资源的公平性。

实际应用

在实际应用中，该数据集支撑的文本分块技术是缅甸语信息检索、机器翻译和语音合成系统的核心预处理模块。例如，在搜索引擎中，准确的分块能提升查询理解与文档索引的精度；在翻译系统中，它有助于对齐源语言与目标语言的语义单元。此外，该技术可集成到办公软件或教育工具中，辅助缅甸语文本的自动编辑与语言学习，增强数字环境下的语言可访问性。

数据集最近研究