J-Mourad/MNAD.v1
收藏Hugging Face2023-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/J-Mourad/MNAD.v1
下载链接
链接失效反馈官方服务:
资源简介:
MNAD数据集是一个包含超过100万篇摩洛哥新闻文章的语料库,这些文章以现代阿拉伯语书写,来源于11个主要的电子新闻源。数据集分为两个版本:MNAD.v1和MNAD.v2。MNAD.v1包含418,563篇文章,分为19个类别,来源于Akhbarona.ma、Hespress.ma、Hibapress.com和Le360.com四个新闻网站。MNAD.v2增加了653,901篇文章,总计1,069,489篇文章,来源于七个额外的摩洛哥新闻网站。MNAD.v2在数据预处理和清洗方面进行了改进,包括去除重复项、消除多余空格、删除NaN值、替换换行符、排除过长和过短的文章以及删除非阿拉伯语文章,以提高数据集的可用性和价值。
提供机构:
J-Mourad
原始信息汇总
关于MNAD数据集
数据集概述
- MNAD数据集 包含超过 100万篇 现代阿拉伯语的摩洛哥新闻文章。
- 这些文章来自11个主要电子新闻源。
- 数据集用于学术研究,如数据挖掘、信息检索等非商业活动。
数据集字段
- Title: 文章标题
- Body: 文章正文
- Category: 文章类别
- Source: 文章来源的电子报纸
版本1 (MNAD.v1)
- 包含 418,563 篇文章,分为19个类别。
- 数据来自Akhbarona.ma, Hespress.ma, Hibapress.com, Le360.com。
- 存储在四个CSV文件中,每个文件对应一个新闻网站。
- 每个CSV文件包含Title, Body, Category三个字段。
- 包含约 906,125 个独特的阿拉伯语词汇。
版本2 (MNAD.v2)
- 新增 653,901 篇文章,总文章数达到 1,069,489。
- 新增文章来自七个摩洛哥新闻网站。
- 所有文章合并为一个CSV文件 MNADv2.csv,新增"Source"字段。
- 包含数据预处理和清洗的改进,如去除重复、NaN值处理等。
数据集下载
引用信息
- 引用文献: bibtex @inproceedings{MNAD2021, author = {Mourad Jbene and Smail Tigani and Rachid Saadane and Abdellah Chehri}, title = {A Moroccan News Articles Dataset (MNAD) For Arabic Text Categorization}, year = {2021}, publisher = {IEEE}, booktitle = {2021 International Conference on Decision Aid Sciences and Application (DASA)}, doi = {10.1109/dasa53625.2021.9682402}, url = {https://doi.org/10.1109/dasa53625.2021.9682402}, }



