five

targum-corpus

收藏
Hugging Face2026-03-14 更新2026-03-16 收录
下载链接:
https://huggingface.co/datasets/mrapacz/targum-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Targum Corpus 是一个多语言新约圣经翻译语料库,深度覆盖五种欧洲语言:英语、法语、意大利语、波兰语和西班牙语。该语料库包含从13个源图书馆收集的657个翻译(349个唯一),时间跨度从1525年至2025年。本次发布的数据集子集包含307个在公共领域或开放许可下发布的翻译,其余350个受版权保护的翻译可应研究者请求提供。语料库以古代阿拉姆语对希伯来圣经的翻译(תרגום,意为“翻译”)命名,注重垂直深度而非语言广度,便于计算分析不同历史时期和宗教传统下的翻译差异。数据集结构包括每个翻译的JSONL文件(每行一节经文)和元数据文件(index.tsv、copyrights.tsv、book_coverage.tsv)。元数据包含标准化标识符、版本、年份和版权状态,支持研究者根据需求定义翻译的“唯一性”。数据集适用于文本生成和翻译任务,源数据来自13个在线圣经图书馆。
创建时间:
2026-03-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作