gngpostalsrvc/Tanakh
收藏Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gngpostalsrvc/Tanakh
下载链接
链接失效反馈官方服务:
资源简介:
Tanakh数据集可用于训练和微调圣经希伯来语语言模型。它包含希伯来圣经的发音文本(不包括耶利米书10:11;但以理书2:4b–7:28;以斯拉记4:8–6:18;7:12-26中的阿拉姆语经文),并按经文划分。每个经文的基文本来自Text-Fabric包,并经过处理以去除重音和其他副文本标记,同时使用hebrewtools进行自定义Unicode规范化。
Tanakh数据集可用于训练和微调圣经希伯来语语言模型。它包含希伯来圣经的发音文本(不包括耶利米书10:11;但以理书2:4b–7:28;以斯拉记4:8–6:18;7:12-26中的阿拉姆语经文),并按经文划分。每个经文的基文本来自Text-Fabric包,并经过处理以去除重音和其他副文本标记,同时使用hebrewtools进行自定义Unicode规范化。
提供机构:
gngpostalsrvc
原始信息汇总
数据集概述
数据集名称
Tanakh数据集
数据集用途
用于训练和微调圣经希伯来语语言模型。
数据集内容
包含希伯来圣经的有声文本(不包括耶利米书10:11;但以理书2:4b–7:28;以斯拉记4:8–6:18;7:12-26中的亚兰语经文),按经文分解。
数据来源
每个经文的基础文本来源于Text-Fabric包。
数据处理
数据经过处理以去除重音和其他副文本标记,并使用hebrewtools进行自定义Unicode规范化。
数据集生成脚本
生成Tanakh数据集的脚本可在此处找到。



