five

myNews: Burmese News Dataset

收藏
github2025-11-24 更新2025-11-28 收录
下载链接:
https://github.com/ye-kyaw-thu/myNews
下载链接
链接失效反馈
官方服务:
资源简介:
myNews是一个缅甸新闻数据集,旨在支持低资源语言的NLP研究和发展,特别是针对缅甸语。该数据集包含手动标注的缅甸新闻段落,涵盖六个类别:政治、体育、商业、技术、娱乐和环境。数据集包含约7,315个样本,其中80%用于训练,20%用于测试。

myNews is a Burmese news dataset aimed at supporting NLP research and development for low-resource languages, with a particular focus on Burmese. This dataset contains manually annotated Burmese news paragraphs, covering six categories: politics, sports, business, technology, entertainment, and environment. It includes approximately 7,315 samples, with 80% allocated for training and 20% for testing.
创建时间:
2025-11-24
原始信息汇总

myNews: 缅甸新闻数据集概述

数据集简介

myNews是一个专为支持低资源自然语言处理研究而设计的缅甸新闻数据集,包含手动标注的缅甸新闻段落,涵盖六个类别:政治、体育、商业、技术、娱乐和环境。该数据集曾作为研究基础获得第20届IEEE iSAI-NLP 2025会议最佳论文奖。

数据集结构

数据集文件位于/data/v1/classification/目录下,包含三个文件:

  • myNews_v1_classification_train.txt
  • myNews_v1_classification_test.txt
  • myNews_v1_classification_full.txt

每个文件包含两列数据:

  • text:缅甸新闻段落
  • label:类别标签,取值为{sports, politics, business, technology, entertainment, environment}

数据集统计

总样本量:约7,315个样本 训练集:80%(约5.84k样本) 测试集:20%(约1.47k样本)

类别分布

类别 数量 百分比
体育 1,232 16.84%
政治 1,228 16.79%
技术 1,224 16.73%
商业 1,221 16.69%
娱乐 1,205 16.47%
环境 1,205 16.47%

数据预处理

  • Unicode标准化
  • 使用myWord工具进行音节分割
  • 标准标点符号清理
  • 删除格式错误的序列

引用信息

如需使用本数据集,请引用:

@inproceedings{aung2025kannews, title={Enhancing Burmese News Classification with Kolmogorov-Arnold Network Head Fine-tuning}, author={Aung, Thura and Kyaw, Eaint Kay Khaing and Thu, Ye Kyaw and Myint Oo, Thazin and Supnithi, Thepchai}, booktitle={2025 20th International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP)}, pages={1--6}, year={2025}, keywords={Kolmogorov-Arnold Network; Head finetuning; Transformers; News Classification; FourierKAN; FasterKAN; EfficientKAN}, location={Phuket, Thailand} }

许可证

本项目采用MIT许可证。

相关工具

  • myWord工具:https://github.com/ye-kyaw-thu/myWord
  • Faster KAN:https://github.com/AthanasiosDelis/faster-kan
  • Efficient KAN:https://github.com/Blealtan/efficient-kan
  • Fourier KAN:https://github.com/GistNoesis/FourierKAN

联系方式

  • Ye Kyaw Thu:ykt.nlp.ai@gmail.com
  • Thura Aung:thuraaung.ai.mdy@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
在缅甸语自然语言处理研究领域,myNews数据集的构建采用了系统化的人工标注流程。该数据集从缅甸新闻段落中精选了7315个样本,由专业标注团队根据六类主题进行精细分类,涵盖政治、体育、商业、技术、娱乐与环境领域。构建过程中严格遵循数据平衡原则,各类别样本量均保持在16%至17%之间,确保了数据分布的均衡性。原始文本经过Unicode标准化处理与音节分割技术,辅以标点符号规范化流程,最终形成具有高质量标注的标准化语料库。
特点
作为缅甸语自然语言处理领域的重要资源,该数据集展现出鲜明的技术特征。其核心价值体现在涵盖六类新闻主题的多元化语料,每类别均配备详尽的缅英双语示例,为跨语言研究提供便利。数据集采用规范的80/20划分比例,分别提供训练集与测试集文件,支持即插即用的实验部署。特别值得关注的是,该数据集曾作为柯尔莫哥洛夫-阿诺德网络研究的基准数据,在IEEE国际会议上获得学术认可,突显其在低资源语言处理领域的先锋地位。
使用方法
针对缅甸语文本分类任务的应用场景,研究者可通过标准化流程使用该数据集。数据文件以明文格式存储,包含文本内容与类别标签两列数据结构,支持主流机器学习框架的直接读取。建议使用者首先加载训练集进行模型训练,再利用测试集评估性能指标。为提升模型效果,可参考原始研究中采用的音节分割与标点清洗等预处理方法。该数据集兼容Transformer架构与新兴的KAN网络,为探索缅甸语新闻分类的算法创新提供了坚实基础。
背景与挑战
背景概述
在低资源自然语言处理研究领域,缅甸语因标准化语料库匮乏长期面临发展瓶颈。myNews数据集由缅甸研究团队于2025年创建,作为荣获IEEE iSAI-NLP会议最佳论文奖的核心成果,其通过人工标注的7,315条新闻段落构建六分类体系,涵盖政治、体育等主流新闻领域。该数据集不仅为缅甸语文本分类研究提供基准资源,更通过柯尔莫哥洛夫-阿诺德网络的应用验证了低资源语言处理的新范式,显著推动了东南亚语言计算语言学的发展进程。
当前挑战
缅甸语新闻分类面临双重挑战:在领域问题层面,缅甸语作为黏着语具有复杂的形态结构和稀缺的语言资源,传统分类模型难以捕捉其语义特征;在构建过程中,团队需克服字符编码归一化、音节分割等技术难题,同时通过人工标注确保六类新闻数据的平衡分布。这些挑战既体现了低资源语言处理中的共性困境,也揭示了特定语言现象对算法建模提出的特殊要求。
常用场景
经典使用场景
在低资源自然语言处理领域,myNews数据集为缅甸语文本分类任务提供了标准化基准。该数据集通过手动标注的新闻段落,覆盖政治、体育、商业等六大类别,成为开发缅甸语分类模型的核心资源。研究者可基于其均衡的类别分布与预处理数据,构建多类别新闻自动分类系统,推动缅甸语文本理解技术的发展。
解决学术问题
该数据集有效缓解了缅甸语自然语言处理研究中数据稀缺的困境。通过提供超过七千条标注样本,它为低资源语言建模、跨语言迁移学习等研究提供了实验基础。其标注体系解决了缅甸语缺乏标准化分类基准的问题,显著提升了文本分类模型的泛化能力与可复现性,为东南亚语言处理研究开辟了新路径。
衍生相关工作
基于该数据集衍生的经典研究包括获得IEEE iSAI-NLP 2025最佳论文奖的Kolmogorov-Arnold网络分类模型。该工作创新性地将KAN网络结构与傅里叶变换相结合,显著提升了缅甸语新闻分类性能。后续研究进一步拓展至FasterKAN、EfficientKAN等变体,形成了低资源语言处理的技术谱系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作