five

arabic_billion_words

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/arabic_billion_words?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
Arabic Billion Words语料库,收录了超过五百万篇阿拉伯语新闻文章,总计超过15亿词汇,包含约三百万个独特词汇。该语料库以UTF-8和Windows CP-1256两种编码方式进行编码,并使用SGML和XML两种标记语言进行标记。它支持文本生成和掩码填充等任务,并提供诸如文章URL、标题、日期和正文内容等字段。目前,该语料库包含Alittihad、Almasryalyoum等多个配置子集,每个子集均提供一个训练集。
提供机构:
AIWizards
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作