five

J-Mourad/MNAD.v2

收藏
Hugging Face2023-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/J-Mourad/MNAD.v2
下载链接
链接失效反馈
官方服务:
资源简介:
MNAD数据集是一个包含超过100万篇现代阿拉伯语撰写的摩洛哥新闻文章的集合,这些文章来自11个主要电子新闻来源。数据集分为两个版本,版本1包含418,563篇文章,版本2扩展到超过100万篇文章,分类为19个类别。数据集富含阿拉伯词汇,包含约906,125个独特单词,适用于数据挖掘和信息检索等研究目的。数据集包含文章的标题、正文、类别和来源,版本2还添加了指示每篇新闻文章来源的Source列。该数据集可在Kaggle和Huggingface Datasets上免费下载。

The MNAD dataset is a collection of over 1 million modern Moroccan news articles written in Modern Arabic, sourced from 11 major electronic news outlets. The dataset has two versions: Version 1 contains 418,563 articles, while Version 2 has been expanded to include over 1 million articles categorized into 19 categories. It is rich in Arabic vocabulary, with approximately 906,125 unique words, and is suitable for research purposes such as data mining and information retrieval. The dataset includes the article title, body text, category, and source; Version 2 additionally adds a "Source" column indicating the origin of each news article. This dataset is freely available for download on Kaggle and Hugging Face Datasets.
提供机构:
J-Mourad
原始信息汇总

关于MNAD数据集

MNAD数据集是一个包含超过100万篇现代阿拉伯语撰写的摩洛哥新闻文章的集合,这些文章来自11个主要电子新闻源。该数据集主要用于学术研究,如数据挖掘(聚类、分类等)和信息检索(排名、搜索等)。

数据集字段

  • 标题:文章标题
  • 正文:文章内容
  • 类别:文章类别
  • 来源:文章的电子新闻源

关于版本1的数据集(MNAD.v1)

  • 包含文章数:418,563篇
  • 分类:19个类别
  • 来源:Akhbarona.ma, Hespress.ma, Hibapress.com, Le360.com
  • 文件格式:四个CSV文件,每个对应一个新闻网站源
  • 字段:标题、正文、类别
  • 独特词汇量:约906,125个
  • 引用研究:"A Moroccan News Articles Dataset (MNAD) For Arabic Text Categorization". In 2021 International Conference on Decision Aid Sciences and Application (DASA).

关于版本2的数据集(MNAD.v2)

  • 包含文章数:总计1,069,489篇
  • 分类:19个类别
  • 新增来源:al3omk.com, medi1news.com, alayam24.com, anfaspress.com, alyaoum24.com, barlamane.com, SnrtNews.com
  • 文件格式:单个CSV文件(MNADv2.csv),包含额外字段“来源”
  • 预处理改进:去除重复、消除多空格、排除NaN值、替换新行、筛选文章长度、移除非阿拉伯语文章

数据集下载来源

引用信息

  • 引用文献: bibtex @inproceedings{MNAD2021, author = {Mourad Jbene and Smail Tigani and Rachid Saadane and Abdellah Chehri}, title = {A Moroccan News Articles Dataset (MNAD) For Arabic Text Categorization}, year = {2021}, publisher = {IEEE}, booktitle = {2021 International Conference on Decision Aid Sciences and Application (DASA)}, doi = {10.1109/dasa53625.2021.9682402}, url = {https://doi.org/10.1109/dasa53625.2021.9682402}, }
搜集汇总
数据集介绍
main_image_url
构建方式
在阿拉伯语自然语言处理领域,构建大规模、高质量的文本数据集对于推动相关研究至关重要。MNAD.v2数据集的构建过程体现了系统化的数据采集与整合策略。该数据集汇集了来自11家摩洛哥主流电子新闻媒体的超过一百万篇新闻文章,其构建始于对初始四家新闻源(Akhbarona.ma, Hespress.ma等)的采集,形成了包含41.8万篇文章的MNAD.v1版本。在此基础上,扩展版本MNAD.v2进一步纳入了来自七家新增新闻网站(如al3omk.com, medi1news.com等)的65.3万篇文章,最终将总量提升至106.9万篇。所有文章被统一整合至一个CSV文件中,并引入了标识文章来源的“Source”字段。构建过程中应用了先进的数据清洗与预处理技术,包括去重、处理缺失值、规范化文本格式以及过滤非阿拉伯语和长度异常的文章,确保了数据集的纯净度与一致性。
特点
作为专注于摩洛哥阿拉伯语新闻的语料库,MNAD.v2数据集展现出多方面的显著特征。其核心优势在于庞大的规模与丰富的词汇覆盖,总计超过百万篇文章,蕴含约90.6万个独特词汇,为阿拉伯语语言模型训练提供了深厚的资源基础。数据集具有清晰的结构化字段,每篇文章均包含标题、正文、类别及来源信息,并统一划分为19个新闻类别,便于进行有监督的文本分类任务。相较于前代版本,MNAD.v2通过纳入更多元化的新闻来源,显著提升了内容的多样性与代表性,更好地反映了摩洛哥媒体的语言风格和话题广度。经过严格的数据清洗流程,该数据集在文本质量、格式规范性和数据完整性方面均达到了较高标准,为学术研究提供了可靠的基础。
使用方法
该数据集为阿拉伯语文本挖掘与自然语言处理研究提供了多功能的实验平台。研究人员可通过Hugging Face或Kaggle平台直接下载统一的CSV文件,利用其结构化的字段信息开展各类分析。在文本分类任务中,可依据‘Category’字段构建多类别分类模型,评估不同算法在阿拉伯语新闻场景下的性能。其庞大的文本体量也使其成为训练阿拉伯语词向量、预训练语言模型(如BERT的阿拉伯语变体)或进行主题建模、聚类分析的理想语料。信息检索领域的研究者可利用‘Title’和‘Body’字段探索新闻搜索与排序算法。在使用时,建议研究者依据具体任务需求,可能需要对文本进行进一步的分词或特征提取,并注意遵循数据集的许可协议,将其用于非商业性的学术研究目的,并在发表成果时引用指定的学术论文以尊重作者贡献。
背景与挑战
背景概述
在阿拉伯语自然语言处理领域,针对特定方言或区域变体的高质量文本资源相对稀缺,制约了相关研究进展。摩洛哥新闻文章数据集(MNAD)应运而生,由研究人员Mourad Jbene等人于2021年构建并发布,旨在为现代阿拉伯语文本分析提供大规模、结构化的语料库。该数据集汇集了超过一百万篇摩洛哥新闻文章,涵盖十一家主流电子新闻源,核心研究问题聚焦于阿拉伯语文本分类任务。作为该领域的重要基准资源,MNAD不仅丰富了阿拉伯语词汇库,更推动了信息检索、数据挖掘等研究方向的发展,对提升阿拉伯语自然语言处理技术的区域适应性具有显著影响力。
当前挑战
MNAD数据集致力于解决阿拉伯语文本自动分类的领域挑战,其核心在于应对现代阿拉伯语,特别是摩洛哥地区新闻文本中存在的词汇变异、文体混杂及主题交叉等复杂语言现象。在构建过程中,研究团队面临多重技术难题:首先,原始数据来源于多个异构新闻平台,格式不统一且包含大量噪声,需设计高效的清洗流程以去除重复项、非阿拉伯语内容及异常长度文章;其次,数据整合涉及跨版本合并与字段对齐,确保类别体系一致性与数据完整性成为关键;此外,针对阿拉伯语特有的字符编码、词形变化等问题,实施精准的预处理策略亦构成显著挑战。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,MNAD.v2数据集作为大规模摩洛哥新闻语料库,其经典使用场景集中于文本分类任务。研究者利用该数据集丰富的类别标签和清洗后的文本内容,训练和评估机器学习模型,特别是针对阿拉伯语变体的分类算法。通过涵盖政治、经济、文化等19个新闻类别,该数据集为模型提供了多样化的语言特征和语境,助力于提升分类准确性和泛化能力。
衍生相关工作
围绕MNAD.v2数据集,已衍生出多项经典研究工作,包括在2021年国际决策辅助科学与应用会议上发表的基准论文。该研究首次系统介绍了数据集的构建与应用,为后续文本分类实验奠定了基础。其他相关工作可能涉及跨语言模型迁移、阿拉伯语词嵌入优化以及新闻虚假检测等方向,进一步拓展了数据集在学术界的应用广度。
数据集最近研究
最新研究方向
在阿拉伯语自然语言处理领域,摩洛哥新闻文章数据集MNAD.v2凭借其超过百万篇现代阿拉伯语新闻的规模,已成为研究摩洛哥及北非地区语言文化的重要资源。该数据集的最新研究方向聚焦于利用其丰富的语料和优化的预处理技术,推动阿拉伯语文本分类、情感分析和事件检测等前沿任务。随着全球对多语言人工智能模型需求的增长,MNAD.v2为开发针对阿拉伯语方言和现代新闻语体的专用模型提供了关键训练数据,尤其在应对信息过载和虚假新闻识别等热点问题上展现出重要价值。其扩展版本通过整合更多新闻源并强化数据清洗,显著提升了语料库的多样性和质量,为跨语言信息检索和低资源语言建模研究提供了可靠基准,促进了阿拉伯语数字人文研究的深入发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作