Targum
收藏Targum - 多语言新约翻译语料库数据集概述
数据集简介
Targum 是一个多语言新约翻译语料库,在英语、法语、意大利语、波兰语和西班牙语这五种欧洲语言中具有前所未有的深度。该语料库包含 651 个翻译实例(334 个唯一译本),收集自 13 个源库,时间跨度覆盖 1525–2025 年。此存储库包含 公共发布子集:302 个在公共领域或开放许可下发布的翻译。
语料库规模
| 语言 | 代码 | 总计 | 唯一 | 公共子集 |
|---|---|---|---|---|
| 英语 | eng |
390 | 194 | 191 |
| 法语 | fra |
78 | 41 | 44 |
| 西班牙语 | spa |
102 | 53 | 29 |
| 波兰语 | pol |
48 | 29 | 25 |
| 意大利语 | ita |
33 | 17 | 13 |
| 总计 | 651 | 334 | 302 |
“总计”指从所有13个源库收集的翻译实例数量(同一译本可能出现在多个站点)。“唯一”指去重后不同翻译版本的数量。“公共子集”指在此存储库中以公共领域(237)或开放许可(65)分发的实例数量。
数据结构
语料库文件结构如下:
corpus/ {site}/ {iso}/ {id}.jsonl # 每行一节经文 index.tsv # 所有651个翻译的元数据 copyrights.tsv # 每个翻译的版权文本和状态 book_coverage.tsv # 每个翻译涵盖的经卷 manifest.json # 汇总统计信息
每个JSONL文件每行包含一节经文,格式示例如下: json {"book": "MAT", "chapter": 1, "verse": "1", "text": "The book of the generation of Jesus Christ..."} {"book": "MAT", "chapter": 1, "verse": "2", "text": "Abraham begat Isaac..."}
book 字段使用USFM 3字母新约代码:MAT MRK LUK JHN ACT ROM 1CO 2CO GAL EPH PHP COL 1TH 2TH 1TI 2TI TIT PHM HEB JAS 1PE 2PE 1JN 2JN 3JN JUD REV。
预计算嵌入向量
为所有翻译提供了预计算的文本嵌入向量,涵盖章节和经文两种粒度,由两种Qwen3嵌入模型生成:
| 模型 | 粒度 | 文件数 | 大小 |
|---|---|---|---|
Qwen/Qwen3-Embedding-0.6B |
章节 | 656 | ~270 MB |
Qwen/Qwen3-Embedding-0.6B |
经文 | 656 | ~7.7 GB |
Qwen/Qwen3-Embedding-8B |
章节 | 656 | ~2.4 GB |
Qwen/Qwen3-Embedding-8B |
经文 | 656 | ~75 GB |
嵌入向量以Hive分区Parquet文件格式存储在HuggingFace(https://huggingface.co/datasets/mrapacz/targum-corpus)的 embeddings/ 目录下,结构如下:
embeddings/ {model}/ language={iso}/ site={site}/ translation={id}/ granularity={chapter|verse}/ data.parquet
其中 {model} 使用 XxX 作为分隔符(例如 QwenXxXQwen3-Embedding-0.6B)。每个 data.parquet 包含 key(例如章节为 MAT 1,经文为 MAT 1:1)和 value(嵌入向量)列。
元数据
index.tsv 中的每个翻译都附有经过人工验证的元数据注释,关键字段包括:
canonical_id— 翻译作品的标准化标识符。canonical_version— 特定版本或修订版。canonical_year— 特定修订版的年份。copyright_status— 版权状态,取值为public_domain、open_license或copyrighted。
完整字段列表:site, iso, translation_id, translation_name, translation_abbr, canonical_id, canonical_version, canonical_year, num_books, num_chapters, num_verses, num_words, copyright_status。
数据来源
翻译收集自13个图书馆/网站:bible.audio, bible.com, bible.is, biblegateway.com, biblehub.com, bibles.org, biblestudytools.com, bibliepolskie.pl, crossbible.com, ebible.org, jw.org, laparola.net, obohu.cz。 此版本仅包含公共领域和开放许可的翻译。其余349个受版权保护的翻译,研究人员可出于非商业研究目的通过合理请求获取。
获取方式
- 可通过GitHub仓库(https://github.com/mrapacz/targum-corpus)获取公共发布子集。
- 也可通过HuggingFace数据集(https://huggingface.co/datasets/mrapacz/targum-corpus)获取。
许可信息
语料库元数据和衍生注释依据 CC-BY 4.0 许可发布。
各个翻译保留其原始许可,记录在 copyrights.tsv 中。
引用信息
该语料库将在 LREC 2026 上发表。引用信息待定。 预印本可在 arxiv.org/abs/2602.09724 获取。




