myNews: Burmese News Dataset
收藏myNews: 缅甸新闻数据集概述
数据集简介
myNews是一个专为支持低资源自然语言处理研究而设计的缅甸新闻数据集,包含手动标注的缅甸新闻段落,涵盖六个类别:政治、体育、商业、技术、娱乐和环境。该数据集曾作为研究基础获得第20届IEEE iSAI-NLP 2025会议最佳论文奖。
数据集结构
数据集文件位于/data/v1/classification/目录下,包含三个文件:
myNews_v1_classification_train.txtmyNews_v1_classification_test.txtmyNews_v1_classification_full.txt
每个文件包含两列数据:
text:缅甸新闻段落label:类别标签,取值为{sports, politics, business, technology, entertainment, environment}
数据集统计
总样本量:约7,315个样本 训练集:80%(约5.84k样本) 测试集:20%(约1.47k样本)
类别分布
| 类别 | 数量 | 百分比 |
|---|---|---|
| 体育 | 1,232 | 16.84% |
| 政治 | 1,228 | 16.79% |
| 技术 | 1,224 | 16.73% |
| 商业 | 1,221 | 16.69% |
| 娱乐 | 1,205 | 16.47% |
| 环境 | 1,205 | 16.47% |
数据预处理
- Unicode标准化
- 使用myWord工具进行音节分割
- 标准标点符号清理
- 删除格式错误的序列
引用信息
如需使用本数据集,请引用:
@inproceedings{aung2025kannews, title={Enhancing Burmese News Classification with Kolmogorov-Arnold Network Head Fine-tuning}, author={Aung, Thura and Kyaw, Eaint Kay Khaing and Thu, Ye Kyaw and Myint Oo, Thazin and Supnithi, Thepchai}, booktitle={2025 20th International Joint Symposium on Artificial Intelligence and Natural Language Processing (iSAI-NLP)}, pages={1--6}, year={2025}, keywords={Kolmogorov-Arnold Network; Head finetuning; Transformers; News Classification; FourierKAN; FasterKAN; EfficientKAN}, location={Phuket, Thailand} }
许可证
本项目采用MIT许可证。
相关工具
- myWord工具:https://github.com/ye-kyaw-thu/myWord
- Faster KAN:https://github.com/AthanasiosDelis/faster-kan
- Efficient KAN:https://github.com/Blealtan/efficient-kan
- Fourier KAN:https://github.com/GistNoesis/FourierKAN
联系方式
- Ye Kyaw Thu:ykt.nlp.ai@gmail.com
- Thura Aung:thuraaung.ai.mdy@gmail.com




