five

J-Mourad/MNAD.v1

收藏
Hugging Face2023-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/J-Mourad/MNAD.v1
下载链接
链接失效反馈
官方服务:
资源简介:
MNAD数据集是一个包含超过100万篇摩洛哥新闻文章的语料库,这些文章以现代阿拉伯语书写,来源于11个主要的电子新闻源。数据集分为两个版本:MNAD.v1和MNAD.v2。MNAD.v1包含418,563篇文章,分为19个类别,来源于Akhbarona.ma、Hespress.ma、Hibapress.com和Le360.com四个新闻网站。MNAD.v2增加了653,901篇文章,总计1,069,489篇文章,来源于七个额外的摩洛哥新闻网站。MNAD.v2在数据预处理和清洗方面进行了改进,包括去除重复项、消除多余空格、删除NaN值、替换换行符、排除过长和过短的文章以及删除非阿拉伯语文章,以提高数据集的可用性和价值。
提供机构:
J-Mourad
原始信息汇总

关于MNAD数据集

数据集概述

  • MNAD数据集 包含超过 100万篇 现代阿拉伯语的摩洛哥新闻文章。
  • 这些文章来自11个主要电子新闻源。
  • 数据集用于学术研究,如数据挖掘、信息检索等非商业活动。

数据集字段

  • Title: 文章标题
  • Body: 文章正文
  • Category: 文章类别
  • Source: 文章来源的电子报纸

版本1 (MNAD.v1)

  • 包含 418,563 篇文章,分为19个类别。
  • 数据来自Akhbarona.ma, Hespress.ma, Hibapress.com, Le360.com。
  • 存储在四个CSV文件中,每个文件对应一个新闻网站。
  • 每个CSV文件包含Title, Body, Category三个字段。
  • 包含约 906,125 个独特的阿拉伯语词汇。

版本2 (MNAD.v2)

  • 新增 653,901 篇文章,总文章数达到 1,069,489
  • 新增文章来自七个摩洛哥新闻网站。
  • 所有文章合并为一个CSV文件 MNADv2.csv,新增"Source"字段。
  • 包含数据预处理和清洗的改进,如去除重复、NaN值处理等。

数据集下载

引用信息

  • 引用文献: bibtex @inproceedings{MNAD2021, author = {Mourad Jbene and Smail Tigani and Rachid Saadane and Abdellah Chehri}, title = {A Moroccan News Articles Dataset (MNAD) For Arabic Text Categorization}, year = {2021}, publisher = {IEEE}, booktitle = {2021 International Conference on Decision Aid Sciences and Application (DASA)}, doi = {10.1109/dasa53625.2021.9682402}, url = {https://doi.org/10.1109/dasa53625.2021.9682402}, }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作