targum-corpus
收藏Hugging Face2026-03-14 更新2026-03-16 收录
下载链接:
https://huggingface.co/datasets/mrapacz/targum-corpus
下载链接
链接失效反馈官方服务:
资源简介:
Targum Corpus 是一个多语言新约圣经翻译语料库,深度覆盖五种欧洲语言:英语、法语、意大利语、波兰语和西班牙语。该语料库包含从13个源图书馆收集的657个翻译(349个唯一),时间跨度从1525年至2025年。本次发布的数据集子集包含307个在公共领域或开放许可下发布的翻译,其余350个受版权保护的翻译可应研究者请求提供。语料库以古代阿拉姆语对希伯来圣经的翻译(תרגום,意为“翻译”)命名,注重垂直深度而非语言广度,便于计算分析不同历史时期和宗教传统下的翻译差异。数据集结构包括每个翻译的JSONL文件(每行一节经文)和元数据文件(index.tsv、copyrights.tsv、book_coverage.tsv)。元数据包含标准化标识符、版本、年份和版权状态,支持研究者根据需求定义翻译的“唯一性”。数据集适用于文本生成和翻译任务,源数据来自13个在线圣经图书馆。
创建时间:
2026-03-10



