five

ezzaldeen/AraNovels

收藏
Hugging Face2024-04-11 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/ezzaldeen/AraNovels
下载链接
链接失效反馈
官方服务:
资源简介:
AraBooks数据集包含通过OCR扫描的阿拉伯语书籍内容,旨在支持阿拉伯语的发展和研究。该数据集包括来自各种来源的文本,其中一些是翻译成阿拉伯语的,而另一些则是以阿拉伯语原创的。由于PDF文件的质量问题,该数据集可能包含噪音。数据集的总标记数约为555,643个。
提供机构:
ezzaldeen
原始信息汇总

数据集概述

数据集名称

AraBooks

数据集描述

AraBooks是一个包含OCR扫描的阿拉伯语书籍内容的数据集,旨在支持阿拉伯语言的开发和研究。该数据集包含多种来源的文本,包括翻译成阿拉伯语的文本和原生阿拉伯语文本。

数据集特点

  • 包含约555,643个令牌(所有书籍合计)。
  • 可能因PDF文件质量较低而含有噪音。

数据集使用限制

  • 仅供研究和教育目的使用。
  • 用户需自行确保遵守相关版权法律和规定。
  • 数据集创建者不对数据的准确性、完整性或适用性提供保证,并免责于因使用或误用数据而产生的任何损失、损害或法律后果。

数据集规模

  • 数据集大小:1M<n<10M

数据集语言

  • 阿拉伯语(ar)

许可证

  • Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作