five

Myanmar_News_and_Articles

收藏
Hugging Face2026-01-24 更新2026-01-25 收录
下载链接:
https://huggingface.co/datasets/URajinda/Myanmar_News_and_Articles
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从NP News抓取的经过清理的Unicode缅甸文本,涵盖本地新闻、国际事务和访谈。数据集语言为缅甸语(Burmese),来源为NP News Myanmar,格式为Parquet/CSV。内容包括高质量的新闻文章、社论、本地新闻、国际新闻和访谈。数据经过严格的清理过程,包括Unicode标准化、噪音去除、广告过滤和去重。数据集结构通常包括标题、清理后的正文文本、类别(本地、国际、访谈)和原始来源链接。该数据集旨在用于研究和教育目的,特别是用于训练缅甸语言模型。

This dataset contains cleaned Unicode Burmese text scraped from NP News, covering local news, international affairs, and interviews. The dataset is in Burmese, sourced from NP News Myanmar, and available in Parquet/CSV formats. Its content includes high-quality news articles, editorials, local news, international news, and interviews. The data has undergone a rigorous cleaning process, including Unicode normalization, noise removal, ad filtering, and deduplication. The typical structure of the dataset includes title, cleaned body text, category (local, international, interview), and original source link. This dataset is intended for research and educational purposes, particularly for training Burmese language models.
创建时间:
2026-01-24
原始信息汇总

缅甸新闻与文章数据集(NP News)概述

数据集基本信息

  • 名称:缅甸新闻与文章数据集(NP News)
  • 语言:缅甸语(Burmese)
  • 来源:NP News Myanmar
  • 格式:Parquet / CSV

数据集内容

  • 内容类型:高质量的新闻文章、社论、本地新闻、国际新闻和访谈。
  • 内容描述:包含从NP News抓取并清洗的Unicode缅甸语文本,涵盖本地新闻、国际事务和访谈。

数据清洗过程

数据经过严格的多阶段清洗流程,以确保达到用于大语言模型微调的黄金标准质量:

  • 仅限Unicode:使用专门逻辑剔除Zawgyi版本和混合编码噪声。
  • 噪声去除:移除作者标签(例如,Pearl (NP News))、日期、网页导航文本和样板内容。
  • 广告过滤:使用特定图像标记来识别并删除通常出现在Zawgyi文本之前的广告部分。
  • 去重:确保跨类别(如本地、国际、访谈)的内容唯一性。

数据结构

数据集通常包含以下字段:

  • 标题:新闻标题。
  • 内容:清洗后的Unicode正文文本。
  • 部分:类别(本地、国际、访谈)。
  • URL:原始来源链接,供参考。

免责声明与许可

  • 用途:本数据集旨在用于研究和教育目的,特别是用于训练缅甸语语言模型。
  • 版权:关于新闻内容的版权详情,请参考原始来源(NP News)。
搜集汇总
数据集介绍
main_image_url
构建方式
在缅甸语自然语言处理领域,高质量文本资源的稀缺性促使研究者们致力于构建专业数据集。该数据集通过自动化爬虫技术从NP News缅甸语新闻网站系统性地采集原始文本,随后实施了一套严谨的多阶段清洗流程。清洗过程专注于统一编码格式,利用专门逻辑剔除Zawgyi字体版本和混合编码噪声;同时移除作者标签、日期信息、网页导航文本及广告段落等非内容元素,并通过去重机制确保各新闻类别内容的唯一性,最终形成符合大语言模型微调要求的标准化语料。
特点
本数据集的核心价值体现在其高度的纯净性与结构性。所有文本均采用统一的Unicode编码格式,彻底解决了缅甸语文本中常见的Zawgyi与Unicode混合编码问题,为语言模型训练提供了稳定的字符表示基础。数据内容涵盖本地新闻、国际事务及人物访谈等多个主题类别,每篇文档均包含标题、正文、分类标签及原始来源链接,形成了层次分明的信息结构。这种经过深度清洗的黄金标准质量语料,特别适合用于低资源语言的模型预训练与微调任务。
使用方法
研究人员可将此数据集直接应用于缅甸语大语言模型的开发与优化。在具体使用中,可依据‘Section’字段对新闻进行分类建模或主题分析,利用‘Title’和‘Content’字段进行文本生成、摘要提取或语义理解任务的训练。数据集提供的原始URL便于溯源与验证。鉴于其研究教育用途的定位,使用者应关注原始新闻内容的版权约束,在模型训练过程中合理遵循相关规范,以推动缅甸语自然语言处理技术的学术发展。
背景与挑战
背景概述
缅甸新闻与文章数据集(Myanmar News and Articles)由NP News Myanmar机构于近年构建,专注于缅甸语(Burmese)自然语言处理领域。该数据集旨在为缅甸语大语言模型的微调提供高质量的文本资源,覆盖本地新闻、国际事务及访谈等多种内容。其创建响应了全球自然语言处理研究中对低资源语言支持的迫切需求,通过系统化的数据清洗与整理,为缅甸语的信息抽取、文本分类及语言生成等任务奠定了重要基础,显著促进了东南亚语言技术生态的发展。
当前挑战
该数据集致力于解决缅甸语文本处理中的核心挑战,包括克服Zawgyi与Unicode编码混杂带来的字符标准化问题,以及从新闻网页中有效剥离广告、作者标签等噪声内容。在构建过程中,研究人员面临多重困难:一是缅甸语数字资源稀缺,需从有限来源中爬取并清洗大规模文本;二是确保数据去重与分类的准确性,避免内容重复影响模型训练效果;三是维护版权合规性,在学术用途与原始新闻内容版权间取得平衡,这些挑战共同凸显了低资源语言数据集建设的复杂性。
常用场景
经典使用场景
在自然语言处理领域,缅甸语资源相对稀缺,该数据集为研究人员提供了高质量的缅甸语新闻文本,常用于训练和评估语言模型。经典使用场景包括缅甸语文本分类、命名实体识别以及机器翻译任务,特别是在低资源语言环境下,该数据集能够支持模型学习缅甸语的语法结构、词汇分布和语义特征,为后续的文本生成和信息提取研究奠定基础。
解决学术问题
该数据集有效解决了缅甸语自然语言处理中数据匮乏的核心问题,为学术研究提供了标准化的语料库。它支持了低资源语言模型的预训练与微调,促进了跨语言信息检索、情感分析和事件检测等任务的发展。通过提供清洁的Unicode文本,数据集减少了编码噪声对模型性能的干扰,推动了缅甸语计算语言学领域的实证研究,具有重要的学术意义与影响。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,包括缅甸语BERT预训练模型的开发、跨语言迁移学习框架的构建以及新闻事件检测算法的优化。这些工作不仅扩展了低资源语言处理的技术边界,还为东南亚语言的信息化建设提供了参考范例,推动了相关学术社区在缅甸语人工智能应用方面的持续探索与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作