myanmar_news

Hugging Face2025-01-16 更新2025-01-17 收录

下载链接：

https://huggingface.co/datasets/ThuraAung1601/myanmar_news

下载链接

链接失效反馈

官方服务：

资源简介：

Myanmar News Corpus数据集旨在用于缅甸语的文本分类任务的训练和评估。该数据集的第一版于2025年1月13日发布，数据来源于2024年夏季从BBC、VOA、DVB等新闻网站和在线资源收集的新闻文章。数据集包含六个类别的标签：体育、政治、技术、商业、娱乐和环境，每个类别的数量和百分比在README文件中提供了详细统计。未来计划包括发布带有词性标注和命名实体识别标注的扩展版本，以及用于新闻领域语言模型训练的数据集扩展。

The Myanmar News Corpus dataset is designed for training and evaluating Burmese-language text classification tasks. Its first edition was released on January 13, 2025, with data collected from news articles sourced from news websites and online resources including BBC, VOA, DVB and other platforms during the summer of 2024. The dataset includes six category labels: sports, politics, technology, business, entertainment and environment. Detailed statistics on the quantity and percentage of samples in each category are provided in the README file. Future plans include releasing an extended version annotated with part-of-speech tagging and named entity recognition, as well as an expanded dataset for language model training in the news domain.

创建时间：

2025-01-13

搜集汇总

数据集介绍

构建方式

Myanmar News Corpus 数据集的构建始于2024年夏季，涵盖了从BBC、VOA、DVB等多个新闻网站及在线资源中收集的缅甸语新闻文本。这些数据经过精心筛选和标注，主要用于文本分类任务的训练与评估。数据集的首个版本于2025年1月13日发布，未来还将扩展并标注更多自然语言处理任务。

特点

该数据集包含六大类别，分别为体育、政治、科技、商业、娱乐和环境，每类样本数量均衡，占比均在16%至17%之间。这种均衡分布为文本分类任务提供了良好的数据基础。此外，数据集还计划扩展至词性标注（POS）和命名实体识别（NER）等任务，进一步丰富其应用场景。

使用方法

Myanmar News Corpus 主要用于缅甸语文本分类任务的训练与评估。研究人员可通过加载数据集，利用其均衡的类别分布进行模型训练。未来版本还将支持更多自然语言处理任务，如词性标注和命名实体识别。使用该数据集时，建议引用相关预印本论文，以支持学术研究的透明性与可追溯性。

背景与挑战

背景概述

Myanmar News Corpus 数据集由缅甸语言理解实验室于2024年夏季（4月至6月）创建，旨在为缅甸语的文本分类任务提供训练和评估资源。该数据集由Thura Aung、Eaint Kay Khaing Kyaw和Ye Kyaw Thu等研究人员主导，数据来源于BBC、VOA、DVB等多个新闻网站及在线资源。其首个版本于2025年1月13日发布，涵盖了体育、政治、科技、商业、娱乐和环境等多个主题类别，每类样本数量均衡，为缅甸语自然语言处理研究提供了重要的基础数据支持。该数据集的发布填补了缅甸语文本分类领域的空白，对推动低资源语言的自然语言处理研究具有重要意义。

当前挑战

Myanmar News Corpus 数据集面临的主要挑战包括两方面。首先，缅甸语作为一种低资源语言，其文本数据的获取和标注难度较大，尤其是在新闻领域，数据的多样性和代表性难以保证。其次，数据集的构建过程中，研究人员需克服数据来源的分散性和质量参差不齐的问题，同时还需确保标注的一致性和准确性。此外，缅甸语的语法结构和词汇特性增加了文本分类任务的复杂性，这对模型的泛化能力提出了更高的要求。未来，随着数据集的扩展和更多自然语言处理任务的标注，如何进一步提升数据的覆盖范围和标注质量将成为关键挑战。

常用场景

经典使用场景

Myanmar News Corpus 数据集主要用于缅甸语文本分类任务的训练与评估。该数据集涵盖了体育、政治、技术、商业、娱乐和环境等多个领域的新闻文本，为研究者提供了一个多样化的语料库，便于开发高效的文本分类模型。通过该数据集，研究者能够深入探索缅甸语的自然语言处理技术，尤其是在新闻领域的应用。

实际应用

Myanmar News Corpus 数据集在实际应用中具有广泛的价值。例如，新闻媒体可以利用该数据集训练自动分类系统，快速将新闻文章归类到不同的主题领域，从而提高内容管理的效率。此外，政府和研究机构也可以通过该数据集分析缅甸社会的舆论趋势，为政策制定和社会研究提供数据支持。

衍生相关工作

基于 Myanmar News Corpus 数据集，研究者已经开展了一系列相关研究。例如，Thura Aung 等人通过该数据集进行了文本增强技术的实证研究，探索了如何通过数据增强提升缅甸语新闻分类的准确性。此外，该数据集还为未来的词性标注和命名实体识别任务提供了基础，预计将衍生出更多关于缅甸语自然语言处理的经典工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集