community-datasets/hebrew_this_world
收藏数据集概述
数据集描述
数据集摘要
HebrewThisWorld 是一个包含 2028 期报纸 This World 的数据集,由 Uri Avnery 编辑,出版于 1950 年至 1989 年间。该数据集遵循 AGPLv3 许可证发布。
支持的任务和排行榜
- 语言建模
- 掩码语言建模
语言
希伯来语
数据集结构
数据实例
示例:
json { "issue_num": 637, "page_count": 16, "date": "1950-01-01", "date_he": "1 בינואר 1950", "year": "1950", "href": "https://thisworld.online/1950/637", "pdf": "https://olam.eu-central-1.linodeobjects.com/pdfs/B-I0637-D010150.pdf", "coverpage": "https://olam.eu-central-1.linodeobjects.com/pages/637/t-1.png", "backpage": "https://olam.eu-central-1.linodeobjects.com/pages/637/t-16.png", "content": " לפיד הנוער ־ בירושלים צילומים :
ב. רותנברג
וזהו הלפיד ...", "url": "https://thisworld.online/api/1950/637" }
数据字段
issue_num: 期号page_count: 页数date: 出版日期date_he: 希伯来语出版日期year: 年份href: 期号的 URLpdf: PDF 格式的期号 URLcoverpage: 封面页 URLbackpage: 封底页 URLcontent: 期号内容url: URL
数据分割
| train | |
|---|---|
| corpus | 2028 |
数据集创建
数据来源
注释
注释者
研究人员
使用数据的注意事项
许可证信息
GNU AGPLv3+
这是一个自由软件,您可以根据某些条件重新分发它。
本程序是自由软件:您可以根据自由软件基金会发布的 GNU Affero 通用公共许可证的条款重新分发和/或修改它,许可证的版本 3 或(根据您的选择)任何更高版本。
本程序分发时希望它有用,但不提供任何保证;甚至没有对适销性或特定用途适用性的默示保证。有关详细信息,请参阅 GNU Affero 通用公共许可证。
您应该已经随本程序收到了一份 GNU Affero 通用公共许可证的副本。如果没有,请参阅 http://www.gnu.org/licenses/。



