five

inparallel/saudinewsnet

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/inparallel/saudinewsnet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为saudinewsnet,包含31,030篇阿拉伯语报纸文章及其元数据,这些文章来自多个沙特阿拉伯的在线报纸,使用现代标准阿拉伯语(MSA)撰写。数据集的主要用途包括文本生成和填充掩码任务。数据集的创建者未提供额外的注释,且数据集不包含个人或敏感信息。数据集的许可证为Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

该数据集名为saudinewsnet,包含31,030篇阿拉伯语报纸文章及其元数据,这些文章来自多个沙特阿拉伯的在线报纸,使用现代标准阿拉伯语(MSA)撰写。数据集的主要用途包括文本生成和填充掩码任务。数据集的创建者未提供额外的注释,且数据集不包含个人或敏感信息。数据集的许可证为Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
提供机构:
inparallel
原始信息汇总

数据集概述

数据集名称: saudinewsnet

语言: 阿拉伯语 (ar)

数据集大小:

  • 下载大小: 29.01 MB
  • 生成数据集大小: 103.65 MB
  • 总磁盘使用量: 132.67 MB

数据集结构:

  • 实例数量: 31,030
  • 数据字段:
    • source (字符串): 新闻来源
    • url (字符串): 文章提取的完整URL
    • date_extracted (字符串): 文章提取的时间戳
    • title (字符串): 文章标题
    • author (字符串): 文章作者
    • content (字符串): 文章内容

数据来源:

  • 数据集包含的31,030篇阿拉伯语新闻文章来自多个沙特新闻网站,包括但不限于:
    • Al-Riyadh (4,852篇文章)
    • Al-Jazirah (3,690篇文章)
    • Al-Yaum (3,065篇文章)
    • Al-Eqtisadiya (2,964篇文章)
    • Al-Sharq Al-Awsat (2,947篇文章)
    • Okaz (2,846篇文章)
    • Al-Watan (2,279篇文章)
    • Al-Madina (2,252篇文章)
    • Al-Weeam (2,090篇文章)
    • Ain Alyoum (2,080篇文章)
    • Sabq (1,411篇文章)
    • Saudi Press Agency (369篇文章)
    • Arreyadi (133篇文章)
    • Arreyadiyah (52篇文章)

许可证: 未知

任务类别:

  • 文本生成
  • 填充掩码

数据集创建:

  • 数据收集: 现代标准阿拉伯语文本从互联网爬取
  • 源语言生产者: 新闻网站
  • 注释: 数据集不包含额外注释

使用数据注意事项:

  • 许可证信息: 创意共享署名-非商业性使用-相同方式共享4.0国际许可

引用信息:

@misc{hagrima2015, author = "M. Alhagri", title = "Saudi Newspapers Arabic Corpus (SaudiNewsNet)", year = 2015, url = "http://github.com/ParallelMazen/SaudiNewsNet" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作