Mouwiya/SANAD
收藏Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Mouwiya/SANAD
下载链接
链接失效反馈官方服务:
资源简介:
SANAD数据集是一个大型阿拉伯新闻文章集合,适用于多种阿拉伯自然语言处理任务,如文本分类和词嵌入。文章通过专门编写的Python脚本从三个流行的新闻网站(AlKhaleej、AlArabiya和Akhbarona)收集。所有数据集包含七个类别[文化、金融、医疗、政治、宗教、体育和科技],除了AlArabiya没有[宗教]类别。SANAD总共包含超过19万篇文章。
SANAD数据集是一个大型阿拉伯新闻文章集合,适用于多种阿拉伯自然语言处理任务,如文本分类和词嵌入。文章通过专门编写的Python脚本从三个流行的新闻网站(AlKhaleej、AlArabiya和Akhbarona)收集。所有数据集包含七个类别[文化、金融、医疗、政治、宗教、体育和科技],除了AlArabiya没有[宗教]类别。SANAD总共包含超过19万篇文章。
提供机构:
Mouwiya
原始信息汇总
数据集概述
数据集名称
Arabic News Articles Dataset
数据集内容
- 子集名称: Khaleej
- 文章数量: 45500篇
- 分类: 7个类别(Culture, Finance, Medical, Politics, Religion, Sports, Tech)
数据集特征
- 特征1: text
- 数据类型: string
- 特征2: label
- 数据类型: string
数据集拆分
- 拆分名称: train
- 示例数量: 45500
- 字节数: 181482477
数据集大小
- 下载大小: 86389093字节
- 数据集大小: 181482477字节
语言
- ar
- en
任务类别
- text-classification
- translation
- summarization
大小类别
- 10K<n<100K



