five

myanmar-text-segmentation-dataset

收藏
Hugging Face2025-12-22 更新2025-12-23 收录
下载链接:
https://huggingface.co/datasets/chuuhtetnaing/myanmar-text-segmentation-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为缅甸语文本块分割设计的,采用BIO标记方案进行序列标注任务。输入标记为缅甸语的音节或英语的字符,标签使用B(开始)和I(内部)标记块边界。例如,未分割的文本`မြန်မာနိုင်ငံတွင်`被分解为音节`["မြန်", "မာ", "နိုင်", "ငံ", "တွင်"]`,并标记为`[B, I, B, I, I]`以生成分割后的输出`မြန်မာ နိုင်ငံတွင်`。数据集来源于缅甸维基百科,经过段落提取、语言过滤、标记化和去重等处理。
创建时间:
2025-12-21
原始信息汇总

Myanmar Text Segmentation Dataset

数据集概述

这是一个用于缅甸语块分割的标记分类数据集,采用BIO标记方案为序列标注任务格式化。

数据集详情

  • 来源数据:源自 chuuhtetnaing/myanmar-wikipedia-dataset
  • 数据处理流程
    1. 段落提取:将每篇维基百科文章按换行符分割,保留完整段落作为独立行。
    2. 语言过滤:使用Facebook的fastText语言识别模型对每个段落进行分类,仅保留被识别为缅甸语(__label__mya_Mymr)的段落。
    3. 标记化:缅甸语文本使用基于正则表达式的规则被标记化为音节;英语文本被标记化为单个字符。
    4. 块边界标注:将维基百科源文本中的原始空格转换为B/I序列标签,其中B标记每个块的第一个标记,I标记后续标记。
    5. 去重:从最终数据集中删除重复的标记序列。
  • 数据格式:每个样本包含tokens(标记列表)和segment_tags(分割标签列表)两个字段。
  • 特征
    • tokensSequence[string] - 输入标记(缅甸语音节或英文字符)。
    • segment_tagsSequence[ClassLabel] - 块边界标签(B=0,I=1)。

数据集统计

数据分割 样本数量
训练集 544,133
测试集 28,639

技术规格

  • 下载大小:62,467,086 字节
  • 数据集大小:650,790,693 字节
  • 任务类别:标记分类
  • 语言:缅甸语 (my)
  • 标签:myanmar, burmese, nlp, sequence-labeling, text-segmentation, chunk-segmentation
  • 规模分类:100K < n < 1M

使用方式

可通过Hugging Face datasets库加载: python from datasets import load_dataset ds = load_dataset("chuuhtetnaing/myanmar-text-segmentation-dataset")

相关资源

  • 演示空间:https://huggingface.co/spaces/chuuhtetnaing/myanmar-text-segmentation-app
  • 微调笔记本:https://github.com/chuuhtetnaing/myanmar-language-dataset-collection/blob/main/Myanmar%20Text%20Segmentation/myanmar-text-segmentation-fine-tuning.ipynb
  • 数据集创建笔记本:https://github.com/chuuhtetnaing/myanmar-language-dataset-collection/blob/main/Myanmar%20Text%20Segmentation/myanmar-text-segmentation-dataset.ipynb
  • 其他缅甸语数据集:https://github.com/chuuhtetnaing/myanmar-language-dataset-collection

预期用途

  • 训练缅甸语NLP的块分割模型。
  • 标记分类/序列标注实验。
  • 缅甸语处理研究。
搜集汇总
数据集介绍
main_image_url
构建方式
在缅甸语自然语言处理领域,文本分块是基础且关键的任务。该数据集源自缅甸维基百科语料,通过多阶段流程构建而成。首先从原始文章中提取完整段落,确保模型能够处理多句子输入;随后利用fastText语言识别模型筛选出纯缅甸语内容。文本经过基于正则表达式的音节切分规则处理,将连续字符转化为音节序列,同时保留英文部分的字符级切分。原始文本中的空格信息被转化为BIO标注序列,其中B标记表示分块的起始,I标记表示分块内部延续。最终通过去重操作,形成了包含54万余训练样本和2.8万余测试样本的高质量标注数据。
使用方法
在自然语言处理研究中,该数据集为序列标注任务提供了标准化接口。研究者可通过HuggingFace数据集库直接加载,获取包含tokens和segment_tags两个字段的结构化数据。标注标签采用ClassLabel类型,可直接映射为B/I语义。实际使用时,可借助提供的重构函数将标注序列还原为带空格的文本,直观验证模型输出效果。数据集适用于训练各类序列标注模型,特别是基于Transformer架构的预训练模型微调。其段落级的设计使得模型无需在推理时进行句子切分,可直接处理长文本分块任务,为缅甸语信息处理系统的开发提供了重要基础设施。
背景与挑战
背景概述
缅甸语文本分割数据集由研究者chuuhtetnaing构建,旨在应对缅甸语自然语言处理中文本分块的挑战。该数据集基于缅甸语维基百科语料,采用BIO标注方案,将文本音节或字符序列转化为边界标签,以支持序列标注任务。其创建响应了低资源语言处理的需求,为缅甸语的分词与信息提取研究提供了标准化资源,推动了该语言在计算语言学领域的基础设施发展。
当前挑战
该数据集致力于解决缅甸语文本分块问题,其核心挑战在于缅甸语作为黏着语,缺乏显式分词边界,且音节结构复杂,传统分词方法难以直接适用。构建过程中,面临数据清洗与标注的困难,需设计规则处理音节切分与语言识别,并克服维基百科语料中混合语言与格式噪声的影响,同时确保标注一致性与数据去重,以生成高质量的训练样本。
常用场景
经典使用场景
在缅甸语自然语言处理领域,文本分块是基础且关键的任务,该数据集为此提供了标准化的序列标注资源。其经典使用场景在于训练和评估基于深度学习的序列标注模型,如BiLSTM-CRF或Transformer架构,以自动识别缅甸语文本中的语义单元边界。通过将音节或字符序列与BIO标签对齐,模型能够学习从无空格文本中恢复出符合语言习惯的词汇分块,为下游任务提供结构化的输入。
解决学术问题
该数据集直接应对缅甸语缺乏显式分词符号所带来的学术挑战,解决了低资源语言中文本规范化与结构解析的难题。它使得研究者能够系统探索音节级与字符级表示对分块性能的影响,并为跨语言序列标注模型的迁移学习提供实证基础。其意义在于填补了缅甸语NLP基准数据的空白,推动了针对复杂书写系统的计算语言学理论发展,促进了语言技术资源的公平性。
实际应用
在实际应用中,该数据集支撑的文本分块技术是缅甸语信息检索、机器翻译和语音合成系统的核心预处理模块。例如,在搜索引擎中,准确的分块能提升查询理解与文档索引的精度;在翻译系统中,它有助于对齐源语言与目标语言的语义单元。此外,该技术可集成到办公软件或教育工具中,辅助缅甸语文本的自动编辑与语言学习,增强数字环境下的语言可访问性。
数据集最近研究
最新研究方向
在缅甸语自然语言处理领域,文本分割作为基础任务,近年来随着低资源语言技术需求的增长而备受关注。该数据集聚焦于缅甸语块分割,其最新研究方向主要围绕跨语言迁移学习与轻量化模型部署展开。研究者们正探索利用多语言预训练模型,如XLM-RoBERTa,通过微调机制提升对缅甸语复杂音节结构的识别能力,以应对标注数据稀缺的挑战。同时,结合边缘计算场景,开发高效的小型化分割模型成为热点,旨在服务于移动设备上的实时语言应用。这些进展不仅推动了缅甸语信息处理技术的本土化发展,也为东南亚语言多样性的数字包容提供了关键支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作