five

community-datasets/hebrew_this_world

收藏
Hugging Face2024-06-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/hebrew_this_world
下载链接
链接失效反馈
官方服务:
资源简介:
HebrewSentiment数据集包含了2028期由Uri Avnery编辑的报纸This World的内容,这些报纸发表于1950年至1989年之间。数据集以AGPLv3许可证发布,主要用于语言建模任务。数据集的结构包括多个字段,如issue_num、page_count、date、date_he、year、href、pdf、coverpage、backpage、content和url。数据集的语言为希伯来语,且为单语种数据集。数据集的创建和注释过程未详细说明,但已知注释是由研究人员完成的。

The HebrewSentiment dataset contains the content of 2028 issues of the newspaper *This World*, which was edited by Uri Avnery and published between 1950 and 1989. Released under the AGPLv3 license, this dataset is primarily intended for language modeling tasks. The dataset structure includes multiple fields, such as issue_num, page_count, date, date_he, year, href, pdf, coverpage, backpage, content, and url. The dataset is in Hebrew and is a monolingual dataset. The detailed processes of dataset creation and annotation are not specified, but the annotations are known to have been completed by researchers.
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集描述

数据集摘要

HebrewThisWorld 是一个包含 2028 期报纸 This World 的数据集,由 Uri Avnery 编辑,出版于 1950 年至 1989 年间。该数据集遵循 AGPLv3 许可证发布。

支持的任务和排行榜

  • 语言建模
  • 掩码语言建模

语言

希伯来语

数据集结构

数据实例

示例:

json { "issue_num": 637, "page_count": 16, "date": "1950-01-01", "date_he": "1 בינואר 1950", "year": "1950", "href": "https://thisworld.online/1950/637", "pdf": "https://olam.eu-central-1.linodeobjects.com/pdfs/B-I0637-D010150.pdf", "coverpage": "https://olam.eu-central-1.linodeobjects.com/pages/637/t-1.png", "backpage": "https://olam.eu-central-1.linodeobjects.com/pages/637/t-16.png", "content": " לפיד הנוער ־ בירושלים צילומים :

ב. רותנברג

וזהו הלפיד ...", "url": "https://thisworld.online/api/1950/637" }

数据字段

  • issue_num: 期号
  • page_count: 页数
  • date: 出版日期
  • date_he: 希伯来语出版日期
  • year: 年份
  • href: 期号的 URL
  • pdf: PDF 格式的期号 URL
  • coverpage: 封面页 URL
  • backpage: 封底页 URL
  • content: 期号内容
  • url: URL

数据分割

train
corpus 2028

数据集创建

数据来源

thisworld.online

注释

注释者

研究人员

使用数据的注意事项

许可证信息

GNU AGPLv3+

这是一个自由软件,您可以根据某些条件重新分发它。

本程序是自由软件:您可以根据自由软件基金会发布的 GNU Affero 通用公共许可证的条款重新分发和/或修改它,许可证的版本 3 或(根据您的选择)任何更高版本。

本程序分发时希望它有用,但不提供任何保证;甚至没有对适销性或特定用途适用性的默示保证。有关详细信息,请参阅 GNU Affero 通用公共许可证。

您应该已经随本程序收到了一份 GNU Affero 通用公共许可证的副本。如果没有,请参阅 http://www.gnu.org/licenses/

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作