Ali-C137/Hindawi-Books-dataset
收藏Hugging Face2023-08-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Ali-C137/Hindawi-Books-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Hindawi Books Dataset 是一个包含3000多本以现代标准阿拉伯语撰写的书籍的大型数据集。该数据集提供了丰富多样的文学作品,涵盖了各种主题和类型。每本书的信息包括标题、作者姓名、书籍摘要以及在线访问完整文本的链接。此外,数据集还包含章节详细信息,如章节名称和文本,提供了每本书内容的深入洞察。该数据集适用于语言模型训练、文本生成和文本摘要等任务。
Hindawi Books Dataset 是一个包含3000多本以现代标准阿拉伯语撰写的书籍的大型数据集。该数据集提供了丰富多样的文学作品,涵盖了各种主题和类型。每本书的信息包括标题、作者姓名、书籍摘要以及在线访问完整文本的链接。此外,数据集还包含章节详细信息,如章节名称和文本,提供了每本书内容的深入洞察。该数据集适用于语言模型训练、文本生成和文本摘要等任务。
提供机构:
Ali-C137
原始信息汇总
数据集概述
数据集名称
Hindawi Books Dataset
数据集描述
Hindawi Books Dataset 是一个包含超过3000本现代标准阿拉伯语书籍的大型集合。该数据集提供了丰富的文学作品,涵盖多种主题和类型,包括每本书的标题、作者姓名、书籍摘要以及在线访问完整文本的链接。此外,数据集还包含章节详情,如章节名称和文本,为每本书的内容提供深入了解。
数据集详情
特征
- BookLink: 字符串类型
- BookName: 字符串类型
- AuthorName: 字符串类型
- AboutBook: 字符串类型
- ChapterLink: 字符串类型
- ChapterName: 字符串类型
- ChapterText: 字符串类型
- AboutAuthor: 字符串类型
分割
- train: 49821个样本,占用1364861563字节
数据集大小
- 下载大小: 494678002字节
- 数据集大小: 1364861563字节
语言
- 阿拉伯语
任务类别
- 文本生成
- 摘要
许可证
- cc-by-nc-4.0
引用信息
@dataset{ title = {Hindawi Books Dataset}, author = {Elfilali Ali}, howpublished = {Dataset}, url = {https://huggingface.co/datasets/Ali-C137/Hindawi-Books-dataset}, year = {2023}, }



