myNews: Burmese News Dataset

github2025-11-24 更新2025-11-28 收录

下载链接：

https://github.com/ye-kyaw-thu/myNews

下载链接

链接失效反馈

官方服务：

资源简介：

myNews是一个缅甸新闻数据集，旨在支持低资源语言的NLP研究和发展，特别是针对缅甸语。该数据集包含手动标注的缅甸新闻段落，涵盖六个类别：政治、体育、商业、技术、娱乐和环境。数据集包含约7,315个样本，其中80%用于训练，20%用于测试。

myNews is a Burmese news dataset aimed at supporting NLP research and development for low-resource languages, with a particular focus on Burmese. This dataset contains manually annotated Burmese news paragraphs, covering six categories: politics, sports, business, technology, entertainment, and environment. It includes approximately 7,315 samples, with 80% allocated for training and 20% for testing.

创建时间：

2025-11-24

原始信息汇总

myNews: 缅甸新闻数据集概述

数据集简介

myNews是一个专为支持低资源自然语言处理研究而设计的缅甸新闻数据集，包含手动标注的缅甸新闻段落，涵盖六个类别：政治、体育、商业、技术、娱乐和环境。该数据集曾作为研究基础获得第20届IEEE iSAI-NLP 2025会议最佳论文奖。

数据集结构

数据集文件位于/data/v1/classification/目录下，包含三个文件：

myNews_v1_classification_train.txt
myNews_v1_classification_test.txt
myNews_v1_classification_full.txt

每个文件包含两列数据：

text：缅甸新闻段落
label：类别标签，取值为{sports, politics, business, technology, entertainment, environment}

数据集统计

总样本量：约7,315个样本 训练集：80%（约5.84k样本） 测试集：20%（约1.47k样本）

类别分布

类别	数量	百分比
体育	1,232	16.84%
政治	1,228	16.79%
技术	1,224	16.73%
商业	1,221	16.69%
娱乐	1,205	16.47%
环境	1,205	16.47%

数据预处理

Unicode标准化
使用myWord工具进行音节分割
标准标点符号清理
删除格式错误的序列

引用信息

如需使用本数据集，请引用：

@inproceedings{aung2025kannews, title={Enhancing Burmese News Classification with Kolmogorov-Arnold Network Head Fine-tuning}, author={Aung, Thura and Kyaw, Eaint Kay Khaing and Thu, Ye Kyaw and Myint Oo, Thazin and Supnithi, Thepchai}, booktitle={2025 20th International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP)}, pages={1--6}, year={2025}, keywords={Kolmogorov-Arnold Network; Head finetuning; Transformers; News Classification; FourierKAN; FasterKAN; EfficientKAN}, location={Phuket, Thailand} }

许可证

本项目采用MIT许可证。

联系方式

Ye Kyaw Thu：ykt.nlp.ai@gmail.com
Thura Aung：thuraaung.ai.mdy@gmail.com

搜集汇总

数据集介绍

构建方式

在缅甸语自然语言处理研究领域，myNews数据集的构建采用了系统化的人工标注流程。该数据集从缅甸新闻段落中精选了7315个样本，由专业标注团队根据六类主题进行精细分类，涵盖政治、体育、商业、技术、娱乐与环境领域。构建过程中严格遵循数据平衡原则，各类别样本量均保持在16%至17%之间，确保了数据分布的均衡性。原始文本经过Unicode标准化处理与音节分割技术，辅以标点符号规范化流程，最终形成具有高质量标注的标准化语料库。

特点

作为缅甸语自然语言处理领域的重要资源，该数据集展现出鲜明的技术特征。其核心价值体现在涵盖六类新闻主题的多元化语料，每类别均配备详尽的缅英双语示例，为跨语言研究提供便利。数据集采用规范的80/20划分比例，分别提供训练集与测试集文件，支持即插即用的实验部署。特别值得关注的是，该数据集曾作为柯尔莫哥洛夫-阿诺德网络研究的基准数据，在IEEE国际会议上获得学术认可，突显其在低资源语言处理领域的先锋地位。

使用方法

针对缅甸语文本分类任务的应用场景，研究者可通过标准化流程使用该数据集。数据文件以明文格式存储，包含文本内容与类别标签两列数据结构，支持主流机器学习框架的直接读取。建议使用者首先加载训练集进行模型训练，再利用测试集评估性能指标。为提升模型效果，可参考原始研究中采用的音节分割与标点清洗等预处理方法。该数据集兼容Transformer架构与新兴的KAN网络，为探索缅甸语新闻分类的算法创新提供了坚实基础。

背景与挑战

背景概述

在低资源自然语言处理研究领域，缅甸语因标准化语料库匮乏长期面临发展瓶颈。myNews数据集由缅甸研究团队于2025年创建，作为荣获IEEE iSAI-NLP会议最佳论文奖的核心成果，其通过人工标注的7,315条新闻段落构建六分类体系，涵盖政治、体育等主流新闻领域。该数据集不仅为缅甸语文本分类研究提供基准资源，更通过柯尔莫哥洛夫-阿诺德网络的应用验证了低资源语言处理的新范式，显著推动了东南亚语言计算语言学的发展进程。

当前挑战

缅甸语新闻分类面临双重挑战：在领域问题层面，缅甸语作为黏着语具有复杂的形态结构和稀缺的语言资源，传统分类模型难以捕捉其语义特征；在构建过程中，团队需克服字符编码归一化、音节分割等技术难题，同时通过人工标注确保六类新闻数据的平衡分布。这些挑战既体现了低资源语言处理中的共性困境，也揭示了特定语言现象对算法建模提出的特殊要求。

常用场景

经典使用场景

在低资源自然语言处理领域，myNews数据集为缅甸语文本分类任务提供了标准化基准。该数据集通过手动标注的新闻段落，覆盖政治、体育、商业等六大类别，成为开发缅甸语分类模型的核心资源。研究者可基于其均衡的类别分布与预处理数据，构建多类别新闻自动分类系统，推动缅甸语文本理解技术的发展。

解决学术问题

该数据集有效缓解了缅甸语自然语言处理研究中数据稀缺的困境。通过提供超过七千条标注样本，它为低资源语言建模、跨语言迁移学习等研究提供了实验基础。其标注体系解决了缅甸语缺乏标准化分类基准的问题，显著提升了文本分类模型的泛化能力与可复现性，为东南亚语言处理研究开辟了新路径。

衍生相关工作

基于该数据集衍生的经典研究包括获得IEEE iSAI-NLP 2025最佳论文奖的Kolmogorov-Arnold网络分类模型。该工作创新性地将KAN网络结构与傅里叶变换相结合，显著提升了缅甸语新闻分类性能。后续研究进一步拓展至FasterKAN、EfficientKAN等变体，形成了低资源语言处理的技术谱系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集