five

Ali-C137/Hindawi-Books-dataset

收藏
Hugging Face2023-08-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Ali-C137/Hindawi-Books-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Hindawi Books Dataset 是一个包含3000多本以现代标准阿拉伯语撰写的书籍的大型数据集。该数据集提供了丰富多样的文学作品,涵盖了各种主题和类型。每本书的信息包括标题、作者姓名、书籍摘要以及在线访问完整文本的链接。此外,数据集还包含章节详细信息,如章节名称和文本,提供了每本书内容的深入洞察。该数据集适用于语言模型训练、文本生成和文本摘要等任务。

Hindawi Books Dataset 是一个包含3000多本以现代标准阿拉伯语撰写的书籍的大型数据集。该数据集提供了丰富多样的文学作品,涵盖了各种主题和类型。每本书的信息包括标题、作者姓名、书籍摘要以及在线访问完整文本的链接。此外,数据集还包含章节详细信息,如章节名称和文本,提供了每本书内容的深入洞察。该数据集适用于语言模型训练、文本生成和文本摘要等任务。
提供机构:
Ali-C137
原始信息汇总

数据集概述

数据集名称

Hindawi Books Dataset

数据集描述

Hindawi Books Dataset 是一个包含超过3000本现代标准阿拉伯语书籍的大型集合。该数据集提供了丰富的文学作品,涵盖多种主题和类型,包括每本书的标题、作者姓名、书籍摘要以及在线访问完整文本的链接。此外,数据集还包含章节详情,如章节名称和文本,为每本书的内容提供深入了解。

数据集详情

特征

  • BookLink: 字符串类型
  • BookName: 字符串类型
  • AuthorName: 字符串类型
  • AboutBook: 字符串类型
  • ChapterLink: 字符串类型
  • ChapterName: 字符串类型
  • ChapterText: 字符串类型
  • AboutAuthor: 字符串类型

分割

  • train: 49821个样本,占用1364861563字节

数据集大小

  • 下载大小: 494678002字节
  • 数据集大小: 1364861563字节

语言

  • 阿拉伯语

任务类别

  • 文本生成
  • 摘要

许可证

  • cc-by-nc-4.0

引用信息

@dataset{ title = {Hindawi Books Dataset}, author = {Elfilali Ali}, howpublished = {Dataset}, url = {https://huggingface.co/datasets/Ali-C137/Hindawi-Books-dataset}, year = {2023}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作