targum-corpus

Hugging Face2026-03-14 更新2026-03-16 收录

下载链接：

https://huggingface.co/datasets/mrapacz/targum-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Targum Corpus 是一个多语言新约圣经翻译语料库，深度覆盖五种欧洲语言：英语、法语、意大利语、波兰语和西班牙语。该语料库包含从13个源图书馆收集的657个翻译（349个唯一），时间跨度从1525年至2025年。本次发布的数据集子集包含307个在公共领域或开放许可下发布的翻译，其余350个受版权保护的翻译可应研究者请求提供。语料库以古代阿拉姆语对希伯来圣经的翻译（תרגום，意为“翻译”）命名，注重垂直深度而非语言广度，便于计算分析不同历史时期和宗教传统下的翻译差异。数据集结构包括每个翻译的JSONL文件（每行一节经文）和元数据文件（index.tsv、copyrights.tsv、book_coverage.tsv）。元数据包含标准化标识符、版本、年份和版权状态，支持研究者根据需求定义翻译的“唯一性”。数据集适用于文本生成和翻译任务，源数据来自13个在线圣经图书馆。

创建时间：

2026-03-10

5,000+

优质数据集

54 个

任务类型

进入经典数据集