five

gngpostalsrvc/Tanakh

收藏
Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gngpostalsrvc/Tanakh
下载链接
链接失效反馈
官方服务:
资源简介:
Tanakh数据集可用于训练和微调圣经希伯来语语言模型。它包含希伯来圣经的发音文本(不包括耶利米书10:11;但以理书2:4b–7:28;以斯拉记4:8–6:18;7:12-26中的阿拉姆语经文),并按经文划分。每个经文的基文本来自Text-Fabric包,并经过处理以去除重音和其他副文本标记,同时使用hebrewtools进行自定义Unicode规范化。

Tanakh数据集可用于训练和微调圣经希伯来语语言模型。它包含希伯来圣经的发音文本(不包括耶利米书10:11;但以理书2:4b–7:28;以斯拉记4:8–6:18;7:12-26中的阿拉姆语经文),并按经文划分。每个经文的基文本来自Text-Fabric包,并经过处理以去除重音和其他副文本标记,同时使用hebrewtools进行自定义Unicode规范化。
提供机构:
gngpostalsrvc
原始信息汇总

数据集概述

数据集名称

Tanakh数据集

数据集用途

用于训练和微调圣经希伯来语语言模型。

数据集内容

包含希伯来圣经的有声文本(不包括耶利米书10:11;但以理书2:4b–7:28;以斯拉记4:8–6:18;7:12-26中的亚兰语经文),按经文分解。

数据来源

每个经文的基础文本来源于Text-Fabric包。

数据处理

数据经过处理以去除重音和其他副文本标记,并使用hebrewtools进行自定义Unicode规范化。

数据集生成脚本

生成Tanakh数据集的脚本可在此处找到。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作