five

mohres/The_Arabic_E-Book_Corpus

收藏
Hugging Face2024-06-09 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/mohres/The_Arabic_E-Book_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ar size_categories: - 1K<n<10K license: cc-by-4.0 --- # The Arabic E-Book Corpus ## Alternative Title مدونة لغوية للكتب العربية الإلكترونية ## Description #### عربي مدونة الكتب العربية الإلكترونية هي مجموعة بيانات متاحة مجانًا تضم 1,745 كتابًا (81.5 مليون كلمة) نُشرت بواسطة مؤسسة هنداوي بين عامي 2008 و2024. تشمل الكتب أنواعًا مختلفة، بما في ذلك الكتب غير الروائية، الروايات، أدب الأطفال، الشعر، والمسرحيات. #### English The Arabic E-Book Corpus is a freely available collection of 1,745 books (81.5 million words) published by the Hindawi foundation between 2008 and 2024. The books are of various genres, including non-fiction, novels, children's literature, poetry, and plays. The dataset was originally published at [SND](https://snd.se/en/catalogue/dataset/preview/eed46fe0-dfeb-442b-8a71-74d952e006c2/1) and was added to Hugging Face by [Mohammad Fares](https://www.linkedin.com/in/mohres/). ## Language Arabic ## Columns Description > (* = Only applicable to translated works. Empty string in non-translated works.) > - `booknr`: An eight-digit unique number assigned by the publisher, corresponding to the file name of the book. - `cateogy`: Category as assigned by the publisher. 213 books in the corpus have two or three labels, in which case they are given as a comma separated list. There are 25 possible values: > ``` > arts novels > biographies philosophy > business plays > children.stories poetry > detective.fiction politics > economics psychology > environmental.sciences religions > geography science > health science.fiction > history social.sciences > linguistics technology > literary.criticism travel.literature > literature > ``` - `title`: The Arabic title of the book. - `author` (string): The Author in Arabic script. - `pubdate`: Publication date in the (yyyy-mm-dd) - `origtitle`\*: The title of the original work. - `origauthor`\*: The name of the author in the original language from translated books. - `wc`: Word count. - `origpubdate`: Date of the original publication. (yyyy) - `origlang.ar`: Arabic name of original language. - `transdate`\*: Translation date (yyyy), provided for re-publications of existing translations. - `translation` (`TRUE`/`FALSE`): Specifies whether the book is a translation from another language. - `origpubdate.full` (string): Similar as above but with some books specified with - `origlang`: English name of original language. - `category.main`: Similar to `category`, but for books with two or three category labels, the second and third are omitted, giving one category label for each book. - `yyyy-yyyy` (date range). Represented in `orgpubdate` by the first year in the rage. - `unkn`: Publication date stated in the work to be unknown. Represented in `orgpubdate` by `NA`. - `mult`: Stated in the work to be originally published on multiple (unspecified) dates. Represented in `orgpubdate` by `NA`. - `text`: The full text of the book. ## Citation Hallberg, A. (2024). The Arabic E-Book Corpus (Version 1) [Data set]. University of Gothenburg. DOI: Available after publication.
提供机构:
mohres
原始信息汇总

阿拉伯电子书语料库

描述

阿拉伯语

阿拉伯电子书语料库是一个免费提供的包含1,745本书(8150万字)的数据集,由Hindawi基金会于2008年至2024年间出版。这些书籍包括多种类型,如非小说、小说、儿童文学、诗歌和戏剧。

英语

阿拉伯电子书语料库是一个免费提供的包含1,745本书(8150万字)的数据集,由Hindawi基金会于2008年至2024年间出版。这些书籍包括多种类型,如非小说、小说、儿童文学、诗歌和戏剧。

语言

阿拉伯语

列描述

  • booknr: 由出版商分配的八位唯一数字,对应于书的文件名。

  • cateogy: 由出版商分配的类别。语料库中有213本书有两个或三个标签,这种情况下以逗号分隔列表给出。共有25个可能的值:

    艺术 小说
    传记 哲学
    商业 戏剧
    儿童故事 诗歌
    侦探小说 政治
    经济学 心理学
    环境科学 宗教
    地理 科学
    健康 科幻小说
    历史 社会科学
    语言学 技术
    文学批评 旅行文学 文学

  • title: 书的阿拉伯语标题。

  • author: 作者的阿拉伯语名字。

  • pubdate: 出版日期(yyyy-mm-dd)。

  • origtitle*: 原作的标题。

  • origauthor*: 翻译书籍中作者的原语言名字。

  • wc: 字数。

  • origpubdate: 原作的出版日期(yyyy)。

  • origlang.ar: 原语言的阿拉伯语名称。

  • transdate*: 翻译日期(yyyy),适用于现有翻译的再出版。

  • translation (TRUE/FALSE): 指定书籍是否是从另一种语言翻译过来的。

  • origpubdate.full: 类似于origpubdate,但某些书籍指定了日期范围。

  • origlang: 原语言的英语名称。

  • category.main: 类似于category,但对于有两个或三个类别标签的书籍,省略第二个和第三个标签,为每本书提供一个类别标签。

    • yyyy-yyyy (日期范围)。在orgpubdate中以范围的第一个年份表示。
    • unkn: 作品中声明出版日期未知。在orgpubdate中以NA表示。
    • mult: 作品中声明原作在多个(未指定)日期出版。在orgpubdate中以NA表示。
  • text: 书的完整文本。

引用

Hallberg, A. (2024). 阿拉伯电子书语料库 (版本1) [数据集]. 哥德堡大学. DOI: 出版后提供。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作