five

Targum

收藏
arXiv2026-03-17 更新2026-03-18 收录
下载链接:
https://github.com/mrapacz/targum-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Targum是由克拉科夫AGH大学创建的多语言新约翻译语料库,包含651个翻译版本(334个唯一版本),涵盖英语、法语等五种语言,数据量达2.4–5.0倍于先前资源。该数据集聚合自12个在线圣经图书馆和现有语料库,每个翻译均标注了作品标识、版本和修订年份等元数据。通过标准化处理,支持研究者进行翻译家族微观分析或宏观去重研究。该语料库填补了翻译史定量研究的空白,适用于数字人文、翻译学和历时语言分析等领域。
提供机构:
克拉科夫AGH大学
创建时间:
2026-02-10
原始信息汇总

Targum - 多语言新约翻译语料库数据集概述

数据集简介

Targum 是一个多语言新约翻译语料库,在英语、法语、意大利语、波兰语和西班牙语这五种欧洲语言中具有前所未有的深度。该语料库包含 651 个翻译实例(334 个唯一译本),收集自 13 个源库,时间跨度覆盖 1525–2025 年。此存储库包含 公共发布子集302 个在公共领域或开放许可下发布的翻译。

语料库规模

语言 代码 总计 唯一 公共子集
英语 eng 390 194 191
法语 fra 78 41 44
西班牙语 spa 102 53 29
波兰语 pol 48 29 25
意大利语 ita 33 17 13
总计 651 334 302

“总计”指从所有13个源库收集的翻译实例数量(同一译本可能出现在多个站点)。“唯一”指去重后不同翻译版本的数量。“公共子集”指在此存储库中以公共领域(237)或开放许可(65)分发的实例数量。

数据结构

语料库文件结构如下:

corpus/ {site}/ {iso}/ {id}.jsonl # 每行一节经文 index.tsv # 所有651个翻译的元数据 copyrights.tsv # 每个翻译的版权文本和状态 book_coverage.tsv # 每个翻译涵盖的经卷 manifest.json # 汇总统计信息

每个JSONL文件每行包含一节经文,格式示例如下: json {"book": "MAT", "chapter": 1, "verse": "1", "text": "The book of the generation of Jesus Christ..."} {"book": "MAT", "chapter": 1, "verse": "2", "text": "Abraham begat Isaac..."}

book 字段使用USFM 3字母新约代码:MAT MRK LUK JHN ACT ROM 1CO 2CO GAL EPH PHP COL 1TH 2TH 1TI 2TI TIT PHM HEB JAS 1PE 2PE 1JN 2JN 3JN JUD REV

预计算嵌入向量

为所有翻译提供了预计算的文本嵌入向量,涵盖章节和经文两种粒度,由两种Qwen3嵌入模型生成:

模型 粒度 文件数 大小
Qwen/Qwen3-Embedding-0.6B 章节 656 ~270 MB
Qwen/Qwen3-Embedding-0.6B 经文 656 ~7.7 GB
Qwen/Qwen3-Embedding-8B 章节 656 ~2.4 GB
Qwen/Qwen3-Embedding-8B 经文 656 ~75 GB

嵌入向量以Hive分区Parquet文件格式存储在HuggingFace(https://huggingface.co/datasets/mrapacz/targum-corpus)的 embeddings/ 目录下,结构如下:

embeddings/ {model}/ language={iso}/ site={site}/ translation={id}/ granularity={chapter|verse}/ data.parquet

其中 {model} 使用 XxX 作为分隔符(例如 QwenXxXQwen3-Embedding-0.6B)。每个 data.parquet 包含 key(例如章节为 MAT 1,经文为 MAT 1:1)和 value(嵌入向量)列。

元数据

index.tsv 中的每个翻译都附有经过人工验证的元数据注释,关键字段包括:

  • canonical_id — 翻译作品的标准化标识符。
  • canonical_version — 特定版本或修订版。
  • canonical_year — 特定修订版的年份。
  • copyright_status — 版权状态,取值为 public_domainopen_licensecopyrighted

完整字段列表:site, iso, translation_id, translation_name, translation_abbr, canonical_id, canonical_version, canonical_year, num_books, num_chapters, num_verses, num_words, copyright_status

数据来源

翻译收集自13个图书馆/网站:bible.audio, bible.com, bible.is, biblegateway.com, biblehub.com, bibles.org, biblestudytools.com, bibliepolskie.pl, crossbible.com, ebible.org, jw.org, laparola.net, obohu.cz。 此版本仅包含公共领域和开放许可的翻译。其余349个受版权保护的翻译,研究人员可出于非商业研究目的通过合理请求获取。

获取方式

  • 可通过GitHub仓库(https://github.com/mrapacz/targum-corpus)获取公共发布子集。
  • 也可通过HuggingFace数据集(https://huggingface.co/datasets/mrapacz/targum-corpus)获取。

许可信息

语料库元数据和衍生注释依据 CC-BY 4.0 许可发布。 各个翻译保留其原始许可,记录在 copyrights.tsv 中。

引用信息

该语料库将在 LREC 2026 上发表。引用信息待定。 预印本可在 arxiv.org/abs/2602.09724 获取。

搜集汇总
数据集介绍
main_image_url
构建方式
在圣经翻译研究领域,构建一个深度覆盖多语言的平行语料库一直面临挑战。Targum语料库的构建始于从12个在线圣经图书馆和一个现有数字语料库中系统性地聚合数据,通过索引、抓取和解析三个阶段的流程,确保了数据的全面性和可重复性。每个翻译版本都经过精细的元数据标注,包括作品标识、特定版本和修订年份,并通过跨源验证机制进行质量控制,利用词汇相似度指标检测并纠正解析错误或源数据不一致问题,从而形成一个结构严谨、高度可靠的多语言资源。
特点
Targum语料库的显著特点在于其深度优先的设计理念,专注于英语、法语、意大利语、波兰语和西班牙语五种欧洲语言,提供了比以往任何资源多2.4至5.0倍的翻译版本数量。语料库包含651个新约翻译,其中334个为独特版本,并附有详细的规范化元数据,允许研究者根据自身需求灵活定义“独特性”。此外,语料库还提供了预计算的章节级向量嵌入和配对相似性分数,支持即时的语义和词汇分析,为翻译历史的定量研究开辟了新的可能性。
使用方法
在数字人文和计算语言学研究中,Targum语料库为多层次分析提供了强大工具。研究者可以利用其丰富的元数据构建定制化的子语料库,进行微观层面的分析,如追踪单一翻译家族(例如英王钦定本谱系)的语言演变,或进行宏观层面的跨语言比较研究。通过预计算的嵌入和相似性分数,用户可以快速定位新翻译在语义空间中的位置,评估其风格和神学倾向。语料库的开放结构鼓励创新应用,从历时性翻译策略研究到当代版本对比,均能依托其深度数据实现规模化定量探索。
背景与挑战
背景概述
在数字人文与计算语言学的交叉领域,圣经文本因其固有的多语言平行结构与深厚的历史积淀,长期被视为研究翻译演变与文化传播的珍贵资源。Targum数据集由克拉科夫AGH大学的Maciej Rapacz与Aleksander Smywiński-Pohl于2026年构建,旨在突破现有圣经语料库追求语言广度而忽视单一语言内部深度的局限。该语料库聚焦英语、法语、意大利语、波兰语及西班牙语五种拥有丰富翻译历史的欧洲语言,汇集了651个新约译本,其中334个为独特版本,其每语言译本数量较先前最大资源提升2.4至5.0倍。通过系统采集自12个在线圣经图书馆及一个现有语料库,并为每个译本标注了映射到标准化作品标识、特定版本及修订年份的元数据,Targum首次提供了足以支持灵活多层次分析的深度多语言资源,为翻译历史的定量研究填补了关键空白。
当前挑战
Targum数据集致力于解决的领域核心挑战在于实现对圣经翻译史进行大规模、多层次的定量分析,特别是探究不同历史时期、教派传统及翻译哲学(从字面直译到动态意译)在文本选择上的演变规律。在构建过程中,研究团队面临多重技术性与学术性挑战:首要挑战源于数据源的异构性,不同网站对同一译本的命名、元数据记录及经文分段格式存在显著不一致,需通过精细的手动考证与规范化流程建立权威的典藏标识;其次,处理非标准经文分段(如6a、6b)及合并范围(如6–8)对自动化解析提出了特殊要求;再者,确定现代数字化译本及历史译本的精确修订年份常因版本记录缺失或复杂再版历史而变得困难,需依赖出版记录、序言日期等多源证据进行审慎推断。
常用场景
经典使用场景
在翻译研究与数字人文领域,Targum数据集为学者提供了前所未有的深度分析平台。其核心应用场景聚焦于对同一源文本(新约圣经)在五种欧洲语言中数百种译本的系统性比较研究。研究者能够依据详尽的元数据,构建高度定制化的子语料库,例如追踪特定翻译家族(如英王钦定本谱系)跨越数个世纪的演变轨迹,或对比不同教派传统在同一历史时期的翻译策略差异。这种精细化的文本操控能力,使得微观层面的历时与共时分析成为可能,为传统上依赖定性方法的翻译史研究注入了可量化、可复现的计算维度。
解决学术问题
Targum数据集主要解决了翻译研究领域长期存在的两个关键问题:一是缺乏能够支持深度、多层次比较分析的多语言平行资源;二是难以对翻译变体进行大规模定量研究。传统圣经语料库往往追求语言覆盖的广度,导致对单一语言内丰富翻译历史的挖掘深度不足。Targum通过为英语、法语、意大利语、波兰语和西班牙语分别提供远超以往资源数量的译本,并辅以经过验证的版本与年代元数据,使得研究者能够精确界定“独特性”,从而系统探究翻译选择背后的神学、文化与风格动因。这为从计算视角重新审视翻译的历时演变、风格传承与跨文化适应等经典学术议题提供了坚实的数据基础。
衍生相关工作
Targum数据集的构建理念与方法,继承并深化了此前专注于特定问题的深度语料库工作,如EDGeS历时圣经语料库和Carlson等人用于散文风格评估的英语译本集合。同时,它也为未来研究开辟了新路径,预期将衍生出一系列经典工作。例如,基于其细粒度元数据,可开展翻译谱系的计算建模,自动识别译本间的依赖关系;利用其预计算的语义嵌入,可构建整个翻译空间的“风格地图”,用于自动分类新的译本或生成具有特定历史风格的翻译;其多语言深度平行的特性,也将支持跨语言的翻译规范比较研究,探究不同语言社群在接受同一源文本时所呈现的规律性差异。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作