tanakh-talmud-dataset
收藏github2025-07-25 更新2025-07-26 收录
下载链接:
https://github.com/torahbits42/tanakh-talmud-dataset
下载链接
链接失效反馈官方服务:
资源简介:
包含Tanakh和Talmud的数据集,具体包括两个文件:tanakh-text.csv(根据Leningrad Codex的Tanakh完整文本)和talmud-bavli-tanakh-links.csv(Talmud Bavli中引用的经文参考)。
本数据集汇聚了《塔纳赫》与《塔木德》的相关内容,详尽地囊括了两个文件:tanakh-text.csv(依据列宁格勒抄本所编纂的《塔纳赫》全文)以及talmud-bavli-tanakh-links.csv(《塔木德·巴比伦》中对经文引述的参照链接)。
创建时间:
2025-07-25
原始信息汇总
tanakh-talmud-dataset 数据集概述
数据集内容
-
tanakh-text.csv
- 内容:包含根据列宁格勒抄本的完整Tanakh文本。
- 数据来源:https://tanach.us。
-
talmud-bavli-tanakh-links.csv
- 内容:包含Talmud Bavli中对经文的引用,基于Sefaria存储的"Links"数据,涵盖范围超出Talmud文本中的引用。
- 列描述:
- "Section"列:使用Sefaria的章节编号。
- 数据来源:
- Tanakh经文:https://tanach.us。
- 引用:来自Sefaria公开数据转储中的"links"。
数据来源
- Tanakh文本数据:https://tanach.us。
- Talmud引用数据:Sefaria公开数据转储。
其他信息
- 用户可提交Issues或Pull Requests进行问题反馈或建议。
- 如需其他扁平文件格式的数据,建议同时查看Sefaria提供的数据。
搜集汇总
数据集介绍

构建方式
该数据集聚焦于犹太教经典文献《塔纳赫》和《塔木德》的文本整合与分析,构建过程体现了对历史文献的数字化传承。数据集核心文件tanakh-text.csv直接源自列宁格勒抄本的权威文本,通过tanach.us平台获取原始数据;而talmud-bavli-tanakh-links.csv则基于Sefaria平台公开的关联数据,系统收录了《巴比伦塔木德》中对《塔纳赫》经文的引用关系,采用Sefaria特有的章节编号体系进行标注。数据采集严格遵循学术规范,确保原始文献的完整性与引用关系的准确性。
使用方法
研究者可通过文本分析工具直接加载CSV文件开展多维研究。对于《塔纳赫》文本,建议结合NLP技术进行词频统计、主题建模等基础分析;引用关系文件则适用于跨文本关联研究,可通过编程筛选特定经文的塔木德阐释,或构建引文网络图谱。使用前应熟悉Sefaria的章节编号系统,必要时可参照平台提供的元数据说明。数据集兼容主流数据分析框架,若需其他格式转换,可利用Python的pandas等工具进行二次处理,但建议优先考察Sefaria原生的数据接口是否满足需求。
背景与挑战
背景概述
Tanakh-Talmud数据集是一个专注于犹太教经典文本的语料库,主要收录了《塔纳赫》(Tanakh)和《巴比伦塔木德》(Talmud Bavli)的文本内容。该数据集基于历史悠久的列宁格勒抄本(Leningrad Codex)和Sefaria平台提供的公开数据构建,旨在为宗教文本研究、自然语言处理以及历史文化分析提供高质量的原始数据。其核心研究问题聚焦于经典文本的数字化保存、跨文本引用分析以及语义关联挖掘。该数据集的创建进一步推动了犹太教经典文献的数字化进程,为宗教学、语言学以及计算人文等领域的研究提供了重要基础。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,如何准确识别和解析古老宗教文本中的复杂引用结构是一大难点,尤其是《塔木德》中多层次、跨文本的引用关系需要精细的标注和验证。构建过程中的挑战则包括数据源的异构性处理,例如整合来自不同平台(如tanach.us和Sefaria)的数据格式,并确保文本的完整性和一致性。此外,古老文本的数字化过程中可能存在的字符编码问题和章节编号差异也需要额外关注。
常用场景
经典使用场景
在犹太教经典文献研究中,tanakh-talmud-dataset为学者提供了完整的Tanakh文本和Talmud Bavli对Tanakh的引用链接,成为研究犹太教经典互文关系的核心资源。该数据集特别适用于分析Talmud如何解释和引用Tanakh经文,揭示了拉比犹太教对圣经的诠释传统。
解决学术问题
该数据集有效解决了犹太教文本研究中两个关键问题:一是提供了标准化的Tanakh文本来源,消除了版本差异带来的研究障碍;二是系统整理了Talmud对Tanakh的引用关系,为研究犹太教口传律法与成文律法之间的关联提供了数据支持。这对理解犹太教释经学的发展脉络具有重要意义。
实际应用
在实际应用中,该数据集被广泛应用于构建犹太教经典知识图谱,支持宗教文本的数字化研究。教育机构利用它开发经文互查工具,帮助学生学习经典文献的互文关系。数字人文项目则基于这些数据可视化Tanakh与Talmud之间的引用网络,展现犹太教经典的内在联系。
数据集最近研究
最新研究方向
在犹太教经典文本数字化研究领域,tanakh-talmud-dataset为学者提供了基于列宁格勒法典的塔纳赫全文以及巴比伦塔木德中的经文引用关系。该数据集正推动两个前沿方向:一是基于机器学习的跨文本引用网络分析,通过量化塔木德解经文献与塔纳赫原典的互文关系,揭示拉比犹太教的释经逻辑;二是结合自然语言处理技术构建古代闪米特语系文本的语义知识图谱,其成果已应用于《密西拿》与《革马拉》的自动关联标注。2023年数字人文大会上,类似数据架构被用于重建第二圣殿时期文献的传播路径,凸显出该数据集在宗教学计算语言学中的基础性价值。
以上内容由遇见数据集搜集并总结生成



