AMINA

Hugging Face2024-06-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/MohamedZayton/AMINA

下载链接

链接失效反馈

官方服务：

资源简介：

AMINA是一个综合性的阿拉伯语新闻文章数据集，包含来自Youm7、BBC、CNN、RT、Elsharq、ElRai、Elspahe和Hespress等多个新闻源的文章。该数据集旨在支持自然语言处理和新闻学研究，适用于文本分类、零样本分类、文本生成和图像分类等多种NLP任务。

创建时间：

2024-06-23

原始信息汇总

AMINA Newspaper Articles Dataset

概述

AMINA 是一个综合性的阿拉伯语多用途新闻文章数据集，收集自多个知名新闻源。该数据集旨在促进自然语言处理和新闻学研究等领域的发展。

数据来源

数据集包含以下新闻机构的文章：

Youm7
BBC
CNN
RT
Elsharq
ElRai
Elspahe
Hespress

下载和使用

可以使用以下代码片段下载和使用数据集：

python from datasets import load_dataset

BBC articles

bbc = load_dataset("MohamedZayton/AMINA", data_files="BBC/BBC.csv")

CNN articles

cnn = load_dataset("MohamedZayton/AMINA", data_files="CNN/CNN.csv")

RT articles

rt = load_dataset("MohamedZayton/AMINA", data_files="RT/RT.csv")

Youm7 articles

youm_7 = load_dataset("MohamedZayton/AMINA", data_files="Youm7/Youm7.csv")

Hespress articles

hespress = load_dataset("MohamedZayton/AMINA", data_files="Hespress/Hespress.csv")

Elspahe articles

elspahe = load_dataset("MohamedZayton/AMINA", data_files="Elspahe/Elspahe.csv")

ElRai articles by category

elrai = load_dataset("MohamedZayton/AMINA", data_files="ElRai/*.csv")

ElSharq articles by category

elsharq = load_dataset("MohamedZayton/AMINA", data_files="ElSharq/*.csv")

图片链接

部分文章的图片可以从以下链接获取： Youm7 和 Elsharq 报纸文章图片

新闻栏目属性

以下是各新闻机构文章的栏目属性：

BBC

Title: 文章标题
Article: 文章内容
Article_Class: 文章分类
Write_By: 作者
Published Date: 发布日期

CNN

Title: 文章标题
Article: 文章内容
Article_Class: 文章分类
Published Date: 发布日期
Updated Date: 更新日期

RT

Title: 文章标题
Article: 文章内容
Article_Class: 文章分类
Write_By: 作者
Published Date: 发布日期

Youm7

Title: 文章标题
Article: 文章内容
Article_Class: 文章分类
Write_By: 作者
Published Date: 发布日期
Image_id: 图片唯一标识
Caption: 图片描述

Hespress

Title: 文章标题
Article: 文章内容
Article_Class: 文章分类
Write_By: 作者
Date: 发布日期

Elspahe

Title: 文章标题
Article: 文章内容
Atrical_Class: 文章分类
Date: 发布日期

Elrai

Title: 文章标题
Content: 文章内容
Image_path: 图片路径
Source: 文章来源
Views: 浏览量
Publishing_date: 发布日期
Category: 文章分类

Elsharq

Title: 文章标题
Body: 文章内容
Image Url: 图片URL
Image Caption: 图片描述
Tags: 关键词
Tag-source: 标签来源
Views: 浏览量
Date: 发布日期
Time: 发布时间
Inner Class: 内部分类
Class: 主要分类

搜集汇总

数据集介绍

构建方式

AMINA数据集是一个多用途的阿拉伯语新闻文章数据集，涵盖了来自多个知名新闻媒体的文章。这些媒体包括Youm7、BBC、CNN、RT等。数据集的构建过程主要依赖于从这些新闻源中提取文章，并按照统一的格式进行整理。每篇文章都包含了标题、正文、分类、作者、发布日期等关键信息，部分文章还附有图像及其描述。数据集的设计旨在支持自然语言处理、新闻学研究等多个领域的研究。

特点

AMINA数据集的特点在于其多样性和多模态性。数据集不仅包含了丰富的文本内容，还涵盖了图像数据，使得研究者能够进行文本与图像的联合分析。此外，数据集中的文章来自多个不同的新闻媒体，涵盖了广泛的主题和类别，确保了数据的多样性和代表性。每篇文章的元数据信息（如作者、发布日期等）也为研究者提供了更多的分析维度。

使用方法

AMINA数据集的使用方法相对简单，用户可以通过Hugging Face的`datasets`库轻松加载不同新闻源的文章。例如，加载BBC的文章可以使用`load_dataset('MohamedZayton/AMINA', data_files='BBC/BBC.csv')`。数据集中的每篇文章都按照统一的列属性进行组织，用户可以根据需要提取特定的信息。此外，部分文章附带的图像数据也可以通过提供的链接进行下载，进一步扩展了数据集的应用场景。

背景与挑战

背景概述

AMINA数据集是由Mohamed Zaytoon等人于2024年推出的一个阿拉伯语多用途新闻文章数据集，旨在支持自然语言处理、新闻学等领域的研究。该数据集汇集了来自多个知名新闻媒体的文章，包括Youm7、BBC、CNN等，涵盖了丰富的文本和图像内容。AMINA的创建不仅为阿拉伯语文本分析提供了宝贵的资源，还推动了多模态数据研究的发展。通过整合不同媒体的文章，AMINA为研究者提供了一个跨领域的实验平台，显著提升了阿拉伯语新闻数据的可用性和多样性。

当前挑战

AMINA数据集在构建过程中面临了多方面的挑战。首先，阿拉伯语的复杂性和多样性使得文本预处理和分类任务尤为困难，尤其是在处理不同方言和书写风格时。其次，多模态数据的整合要求高质量的图像与文本对齐，这对数据清洗和标注提出了更高的要求。此外，新闻数据的时效性和版权问题也增加了数据收集的难度。尽管AMINA为阿拉伯语新闻研究提供了重要支持，但在实际应用中，如何有效处理数据噪声、提升模型在多模态任务中的表现，仍是亟待解决的问题。

常用场景

经典使用场景

AMINA数据集在自然语言处理领域中被广泛用于文本分类、零样本分类和文本生成任务。其多模态特性使得研究者能够同时处理文本和图像数据，特别适用于阿拉伯语新闻文章的分析。通过整合来自多个知名新闻媒体的文章，AMINA为研究者提供了一个丰富的语料库，用于训练和评估各种机器学习模型。

实际应用

在实际应用中，AMINA数据集被广泛用于新闻媒体的自动化内容管理、新闻推荐系统的开发以及跨语言新闻分析。通过分析不同新闻来源的文章，企业可以更好地理解新闻趋势，优化内容分发策略。此外，该数据集还为阿拉伯语地区的新闻机构提供了数据支持，帮助其提升新闻生产的效率和质量。

衍生相关工作

基于AMINA数据集，研究者们开发了多种先进的自然语言处理模型，特别是在阿拉伯语文本分类和跨模态学习领域。例如，一些研究利用该数据集训练了多模态Transformer模型，用于新闻文章的自动分类和摘要生成。此外，AMINA还催生了一系列关于阿拉伯语新闻情感分析和虚假新闻检测的研究工作，进一步拓展了其应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集