myanmar-text-segmentation-dataset
收藏Hugging Face2025-12-22 更新2025-12-23 收录
下载链接:
https://huggingface.co/datasets/chuuhtetnaing/myanmar-text-segmentation-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为缅甸语文本块分割设计的,采用BIO标记方案进行序列标注任务。输入标记为缅甸语的音节或英语的字符,标签使用B(开始)和I(内部)标记块边界。例如,未分割的文本`မြန်မာနိုင်ငံတွင်`被分解为音节`["မြန်", "မာ", "နိုင်", "ငံ", "တွင်"]`,并标记为`[B, I, B, I, I]`以生成分割后的输出`မြန်မာ နိုင်ငံတွင်`。数据集来源于缅甸维基百科,经过段落提取、语言过滤、标记化和去重等处理。
创建时间:
2025-12-21
原始信息汇总
Myanmar Text Segmentation Dataset
数据集概述
这是一个用于缅甸语块分割的标记分类数据集,采用BIO标记方案为序列标注任务格式化。
数据集详情
- 来源数据:源自
chuuhtetnaing/myanmar-wikipedia-dataset。 - 数据处理流程:
- 段落提取:将每篇维基百科文章按换行符分割,保留完整段落作为独立行。
- 语言过滤:使用Facebook的fastText语言识别模型对每个段落进行分类,仅保留被识别为缅甸语(
__label__mya_Mymr)的段落。 - 标记化:缅甸语文本使用基于正则表达式的规则被标记化为音节;英语文本被标记化为单个字符。
- 块边界标注:将维基百科源文本中的原始空格转换为B/I序列标签,其中
B标记每个块的第一个标记,I标记后续标记。 - 去重:从最终数据集中删除重复的标记序列。
- 数据格式:每个样本包含
tokens(标记列表)和segment_tags(分割标签列表)两个字段。 - 特征:
tokens:Sequence[string]- 输入标记(缅甸语音节或英文字符)。segment_tags:Sequence[ClassLabel]- 块边界标签(B=0,I=1)。
数据集统计
| 数据分割 | 样本数量 |
|---|---|
| 训练集 | 544,133 |
| 测试集 | 28,639 |
技术规格
- 下载大小:62,467,086 字节
- 数据集大小:650,790,693 字节
- 任务类别:标记分类
- 语言:缅甸语 (
my) - 标签:myanmar, burmese, nlp, sequence-labeling, text-segmentation, chunk-segmentation
- 规模分类:100K < n < 1M
使用方式
可通过Hugging Face datasets库加载:
python
from datasets import load_dataset
ds = load_dataset("chuuhtetnaing/myanmar-text-segmentation-dataset")
相关资源
- 演示空间:https://huggingface.co/spaces/chuuhtetnaing/myanmar-text-segmentation-app
- 微调笔记本:https://github.com/chuuhtetnaing/myanmar-language-dataset-collection/blob/main/Myanmar%20Text%20Segmentation/myanmar-text-segmentation-fine-tuning.ipynb
- 数据集创建笔记本:https://github.com/chuuhtetnaing/myanmar-language-dataset-collection/blob/main/Myanmar%20Text%20Segmentation/myanmar-text-segmentation-dataset.ipynb
- 其他缅甸语数据集:https://github.com/chuuhtetnaing/myanmar-language-dataset-collection
预期用途
- 训练缅甸语NLP的块分割模型。
- 标记分类/序列标注实验。
- 缅甸语处理研究。
搜集汇总
数据集介绍

构建方式
在缅甸语自然语言处理领域,文本分块是基础且关键的任务。该数据集源自缅甸维基百科语料,通过多阶段流程构建而成。首先从原始文章中提取完整段落,确保模型能够处理多句子输入;随后利用fastText语言识别模型筛选出纯缅甸语内容。文本经过基于正则表达式的音节切分规则处理,将连续字符转化为音节序列,同时保留英文部分的字符级切分。原始文本中的空格信息被转化为BIO标注序列,其中B标记表示分块的起始,I标记表示分块内部延续。最终通过去重操作,形成了包含54万余训练样本和2.8万余测试样本的高质量标注数据。
使用方法
在自然语言处理研究中,该数据集为序列标注任务提供了标准化接口。研究者可通过HuggingFace数据集库直接加载,获取包含tokens和segment_tags两个字段的结构化数据。标注标签采用ClassLabel类型,可直接映射为B/I语义。实际使用时,可借助提供的重构函数将标注序列还原为带空格的文本,直观验证模型输出效果。数据集适用于训练各类序列标注模型,特别是基于Transformer架构的预训练模型微调。其段落级的设计使得模型无需在推理时进行句子切分,可直接处理长文本分块任务,为缅甸语信息处理系统的开发提供了重要基础设施。
背景与挑战
背景概述
缅甸语文本分割数据集由研究者chuuhtetnaing构建,旨在应对缅甸语自然语言处理中文本分块的挑战。该数据集基于缅甸语维基百科语料,采用BIO标注方案,将文本音节或字符序列转化为边界标签,以支持序列标注任务。其创建响应了低资源语言处理的需求,为缅甸语的分词与信息提取研究提供了标准化资源,推动了该语言在计算语言学领域的基础设施发展。
当前挑战
该数据集致力于解决缅甸语文本分块问题,其核心挑战在于缅甸语作为黏着语,缺乏显式分词边界,且音节结构复杂,传统分词方法难以直接适用。构建过程中,面临数据清洗与标注的困难,需设计规则处理音节切分与语言识别,并克服维基百科语料中混合语言与格式噪声的影响,同时确保标注一致性与数据去重,以生成高质量的训练样本。
常用场景
经典使用场景
在缅甸语自然语言处理领域,文本分块是基础且关键的任务,该数据集为此提供了标准化的序列标注资源。其经典使用场景在于训练和评估基于深度学习的序列标注模型,如BiLSTM-CRF或Transformer架构,以自动识别缅甸语文本中的语义单元边界。通过将音节或字符序列与BIO标签对齐,模型能够学习从无空格文本中恢复出符合语言习惯的词汇分块,为下游任务提供结构化的输入。
解决学术问题
该数据集直接应对缅甸语缺乏显式分词符号所带来的学术挑战,解决了低资源语言中文本规范化与结构解析的难题。它使得研究者能够系统探索音节级与字符级表示对分块性能的影响,并为跨语言序列标注模型的迁移学习提供实证基础。其意义在于填补了缅甸语NLP基准数据的空白,推动了针对复杂书写系统的计算语言学理论发展,促进了语言技术资源的公平性。
实际应用
在实际应用中,该数据集支撑的文本分块技术是缅甸语信息检索、机器翻译和语音合成系统的核心预处理模块。例如,在搜索引擎中,准确的分块能提升查询理解与文档索引的精度;在翻译系统中,它有助于对齐源语言与目标语言的语义单元。此外,该技术可集成到办公软件或教育工具中,辅助缅甸语文本的自动编辑与语言学习,增强数字环境下的语言可访问性。
数据集最近研究
最新研究方向
在缅甸语自然语言处理领域,文本分割作为基础任务,近年来随着低资源语言技术需求的增长而备受关注。该数据集聚焦于缅甸语块分割,其最新研究方向主要围绕跨语言迁移学习与轻量化模型部署展开。研究者们正探索利用多语言预训练模型,如XLM-RoBERTa,通过微调机制提升对缅甸语复杂音节结构的识别能力,以应对标注数据稀缺的挑战。同时,结合边缘计算场景,开发高效的小型化分割模型成为热点,旨在服务于移动设备上的实时语言应用。这些进展不仅推动了缅甸语信息处理技术的本土化发展,也为东南亚语言多样性的数字包容提供了关键支持。
以上内容由遇见数据集搜集并总结生成



