Textus Receptus Text-Fabric Dataset
收藏github2026-01-07 更新2026-01-08 收录
下载链接:
https://github.com/mjredmond/tr-text-fabric
下载链接
链接失效反馈官方服务:
资源简介:
一个Text-Fabric数据集,包含Stephanus 1550 Textus Receptus希腊新约的文本及语言学注释。该数据集结合了TR文本与来自N1904的注释(形态学、语义域、注释),填补了TR用户在使用工具方面的空白。
A Text-Fabric dataset containing the text and linguistic annotations of the Stephanus 1550 Textus Receptus Greek New Testament. This dataset integrates the TR text with annotations sourced from N1904, covering morphological, semantic domain, and explanatory notes, thereby filling the gap in tooling support for TR users.
创建时间:
2026-01-05
原始信息汇总
Textus Receptus Text-Fabric 数据集概述
数据集简介
这是一个为1550年斯特法努斯版希腊文新约《公认经文》提供的Text-Fabric数据集,包含语言学注释。
数据集目的
该数据集将《公认经文》文本与源自N1904的注释(形态学、语义域、词汇释义)相结合,旨在为《公认经文》用户提供与现有校勘本版本相似的工具支持。
数据集内容对比
| 资源 | 文本 | 形态学 | 语义域 | 词汇释义 | 句法树 |
|---|---|---|---|---|---|
| MACULA Greek | 内斯特勒1904 | ✅ | ✅ | ✅ | ✅ |
| Robinson-Pierpont | 拜占庭文本 | ✅ | ❌ | ❌ | ❌ |
| 本数据集 | 《公认经文》1550 | ✅ | ✅ | ✅ | ❌ |
缺失内容
本数据集不包含N1904数据集所具有的层次化句法结构(从句、短语、句子节点)。约11%与N1904不同的《公认经文》词汇需要学者手动注释或使用准确性无法验证的启发式方法生成。为确保质量,仅提供可保证质量的词级注释。
免责声明
本数据集是衍生作品,并非原创学术成果。注释移植自CenterBLC/N1904数据集,该数据集由圣经语言与计算中心的圣经学者创建。本仓库作者并非圣经学者。本数据集为方便和实验目的提供;使用时请谨慎,并在准确性至关重要时根据权威来源验证发现。
数据集构建概述
本项目采用“嫁接与修补”策略为《公认经文》创建注释Text-Fabric数据集:
- 约89%的词汇:注释从对齐的N1904数据集移植而来。
- 约11%的词汇:通过NLP + 词典查找生成注释(针对《公认经文》特有变体)。
数据集统计
| 指标 | 数值 |
|---|---|
| 总词数 | 140,726 |
| 总节数 | 7,957 |
| 书卷数 | 27(完整新约) |
| 唯一词目数 | 7,943 |
| 源自N1904的句法 | 88.8% |
| 源自NLP的句法 | 11.2% |
包含的重要《公认经文》变体
- 约翰一书中的逗号(约翰一书 5:7-8)
- 太监的认信(使徒行传 8:37)
- 淫妇的段落(约翰福音 7:53-8:11)
- 马可福音的较长结尾(马可福音 16:9-20)
- 主祷文的颂赞(马太福音 6:13)
数据源
- 《公认经文》文本:来自蓝字圣经的斯特法努斯1550版。
- N1904句法:CenterBLC/N1904 Text-Fabric数据集。
输出数据集
最终的Text-Fabric数据集生成于data/output/tf/目录,包含以下特征:
| 特征 | 描述 | 覆盖率 |
|---|---|---|
| unicode | 表面形式(希腊文) | 100% |
| text | 表面形式(别名) | 100% |
| normalized | Unicode NFC标准化 | 100% |
| lemma | 词典形式 | 100% |
| sp | 词性 | 100% |
| cls | 词类(名词/动词/形容词) | 100% |
| strong | 斯特朗编号 | 100% |
| morph | 形态学代码 | 100% |
| function | 句法功能 | 41% |
| role | 句法角色(主语/宾语/动词等) | 76% |
| case | 语法格 | 57% |
| gloss | 英文释义 | 100% |
| translit | 拉丁文转写 | 100% |
| lemmatranslit | 词目转写 | 100% |
| unaccent | 无变音符号的希腊文 | 100% |
| after | 尾部标点/空格 | 100% |
| trailer | 尾部材料(别名) | 100% |
| ln | Louw-Nida语义域 | 97% |
| bookshort | 书卷缩写(MAT) | 100% |
| num | 词在节中的位置 | 100% |
| ref | 引用字符串(MAT 1:1!1) | 100% |
| id | 唯一词ID | 100% |
| trans | 上下文翻译 | 97% |
| domain | 语义域代码 | 90% |
| typems | 形态学子类型 | 32% |
词汇释义覆盖率
100%的词汇释义覆盖率在流程第4阶段自动实现:
| 来源 | 覆盖率 |
|---|---|
| N1904对齐 | 88.8% |
| N1904 + 词典查找 | 97.9% |
| 手动释义 + 后备方案 | 100% |
许可证
MIT许可证。详见LICENSE。
搜集汇总
数据集介绍

构建方式
在古典文献数字化研究领域,Textus Receptus Text-Fabric 数据集的构建采用了创新的“嫁接与修补”策略。该策略首先将 Stephanus 1550 版希腊文新约文本与 N1904 数据集进行精确对齐,随后移植了约 89% 词汇的语言学注释,包括词形、语义域及英文释义。针对约 11% 的 TR 特有变体词汇,则通过 Stanza NLP 工具进行自动解析,并结合词典查询生成相应注释,最终整合为完整的 Text-Fabric 格式数据集。
特点
该数据集的核心特点在于其全面而精准的语言学标注体系。它不仅完整覆盖了新约 27 卷书的 140,726 个词汇,还提供了词形、语义域、词性、语法格等 20 余种特征,其中英文释义的覆盖率达到 100%。数据集特别保留了 TR 传统中的关键文本变体,如《约翰一书》的逗号经句与《马可福音》的长结尾,为文本比较研究提供了珍贵素材。
使用方法
研究者可通过 Text-Fabric 框架直接加载该数据集进行多维度的文本分析。使用前需配置 Python 3.9 以上环境并安装 text-fabric、stanza 等依赖库,通过运行标准化管道脚本可完整生成数据集。数据分析时可通过 API 接口按卷、章、节层级检索词汇特征,亦支持针对特定变体章节的对比研究,为文本批评与语言学研究提供结构化数据支持。
背景与挑战
背景概述
在数字人文与计算语言学领域,对古代文本的精细化标注是推动文本分析与历史研究的关键。Textus Receptus Text-Fabric数据集于近年由非学术个人开发者创建,旨在为1550年斯特凡努斯版希腊文新约(Textus Receptus)提供结构化的语言注释资源。该数据集的核心研究问题在于弥补TR文本在计算工具支持上的空白,通过移植N1904数据集中的形态、语义域及词义注释,为TR用户提供类似于批判性文本版本的分析能力。其影响力体现在扩展了TR文本的可计算性,促进了圣经文本比较研究与语言学应用的深化。
当前挑战
该数据集面临的挑战主要集中于领域问题与构建过程两方面。在领域层面,TR文本作为历史版本,其与批判性文本(如N1904)存在约11%的词汇差异,这些TR特有变体缺乏可靠的句法注释,难以通过自动化方法准确生成,导致句法结构覆盖不全。构建过程中,数据集采用“嫁接与修补”策略,依赖N1904的注释移植与自然语言处理技术填补空白,但移植部分需处理文本对齐的复杂性,而NLP生成的注释则存在准确性验证困难,可能引入未经验证的结构性误差。此外,数据集的衍生性质要求用户谨慎使用,并需对照权威来源进行验证。
常用场景
解决学术问题
该数据集主要解决了希腊文新约研究中因版本差异导致的标注资源匮乏问题。通过将N1904批判文本的标注体系移植至Textus Receptus版本,并辅以自然语言处理技术填补差异部分,它实现了对TR文本近90%词汇的可靠语法标注。这一工作为研究TR特有变体(如《约翰一书》中的逗号段落)提供了可计算的基础,弥合了批判文本与传统文本在研究工具上的鸿沟,推动了文本传承研究的定量化发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在文本对齐算法优化与标注质量验证领域。研究者基于其“移植与修补”策略,发展了针对古文献的词汇级对齐模型;同时,对TR特有变体的标注方法催生了结合词典查询与规则推理的混合注释框架。这些工作进一步推动了如《拜占庭文本类型》等其他古文本的标注资源建设,形成了以Text-Fabric为技术基础的古典文献数字化生态链。
以上内容由遇见数据集搜集并总结生成



