sivan22/sefaria-hebrew
收藏Hugging Face2023-11-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sivan22/sefaria-hebrew
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Sefaria项目的希伯来语犹太文本。
This dataset contains Jewish texts in Hebrew from the Sefaria project, featuring multiple attributes such as language, title, version information, status, license, text, and various level indices, divided into a training set with a large number of samples and bytes.
提供机构:
sivan22
原始信息汇总
数据集概述
数据集信息
-
特征列表:
language: 字符串类型title: 字符串类型versionSource: 字符串类型versionTitle: 字符串类型status: 字符串类型license: 字符串类型versionTitleInHebrew: 字符串类型actualLanguage: 字符串类型isBaseText: 布尔类型level_1_index: 浮点数类型level_2_index: 浮点数类型level_3_index: 浮点数类型level_4_index: 浮点数类型level_5_index: 浮点数类型text: 字符串类型versionNotes: 字符串类型versionNotesInHebrew: 字符串类型method: 字符串类型digitizedBySefaria: 浮点数类型heversionSource: 字符串类型priority: 浮点数类型shortVersionTitle: 字符串类型purchaseInformationImage: 字符串类型purchaseInformationURL: 字符串类型
-
数据分割:
train: 包含1955969个样本,总字节数为1901352817
-
数据集大小:
- 下载大小: 544170227字节
- 数据集大小: 1901352817字节
配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含来自Sefaria项目的犹太教希伯来文文本,主要为《塔木德》等经典文献,数据格式为parquet,规模为1.96M行,适用于希伯来文文本处理和研究。
以上内容由遇见数据集搜集并总结生成



