inparallel/saudinewsnet
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/inparallel/saudinewsnet
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为saudinewsnet,包含31,030篇阿拉伯语报纸文章及其元数据,这些文章来自多个沙特阿拉伯的在线报纸,使用现代标准阿拉伯语(MSA)撰写。数据集的主要用途包括文本生成和填充掩码任务。数据集的创建者未提供额外的注释,且数据集不包含个人或敏感信息。数据集的许可证为Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
该数据集名为saudinewsnet,包含31,030篇阿拉伯语报纸文章及其元数据,这些文章来自多个沙特阿拉伯的在线报纸,使用现代标准阿拉伯语(MSA)撰写。数据集的主要用途包括文本生成和填充掩码任务。数据集的创建者未提供额外的注释,且数据集不包含个人或敏感信息。数据集的许可证为Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
提供机构:
inparallel
原始信息汇总
数据集概述
数据集名称: saudinewsnet
语言: 阿拉伯语 (ar)
数据集大小:
- 下载大小: 29.01 MB
- 生成数据集大小: 103.65 MB
- 总磁盘使用量: 132.67 MB
数据集结构:
- 实例数量: 31,030
- 数据字段:
source(字符串): 新闻来源url(字符串): 文章提取的完整URLdate_extracted(字符串): 文章提取的时间戳title(字符串): 文章标题author(字符串): 文章作者content(字符串): 文章内容
数据来源:
- 数据集包含的31,030篇阿拉伯语新闻文章来自多个沙特新闻网站,包括但不限于:
- Al-Riyadh (4,852篇文章)
- Al-Jazirah (3,690篇文章)
- Al-Yaum (3,065篇文章)
- Al-Eqtisadiya (2,964篇文章)
- Al-Sharq Al-Awsat (2,947篇文章)
- Okaz (2,846篇文章)
- Al-Watan (2,279篇文章)
- Al-Madina (2,252篇文章)
- Al-Weeam (2,090篇文章)
- Ain Alyoum (2,080篇文章)
- Sabq (1,411篇文章)
- Saudi Press Agency (369篇文章)
- Arreyadi (133篇文章)
- Arreyadiyah (52篇文章)
许可证: 未知
任务类别:
- 文本生成
- 填充掩码
数据集创建:
- 数据收集: 现代标准阿拉伯语文本从互联网爬取
- 源语言生产者: 新闻网站
- 注释: 数据集不包含额外注释
使用数据注意事项:
- 许可证信息: 创意共享署名-非商业性使用-相同方式共享4.0国际许可
引用信息:
@misc{hagrima2015, author = "M. Alhagri", title = "Saudi Newspapers Arabic Corpus (SaudiNewsNet)", year = 2015, url = "http://github.com/ParallelMazen/SaudiNewsNet" }



