bible-nlp/biblenlp-corpus
收藏Hugging Face2024-12-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bible-nlp/biblenlp-corpus
下载链接
链接失效反馈官方服务:
资源简介:
BibleNLP Corpus数据集包含了833种语言的圣经翻译,按经文对齐。数据集的结构包括翻译、文件、引用、许可证和版权信息。使用该数据集需要安装tqdm、ijson和numpy库,并且可以通过指定ISO 693-3语言代码来选择语言对。数据集的来源是GitHub上的BibleNLP/ebible-corpus仓库。
提供机构:
bible-nlp
原始信息汇总
数据集概述
数据集名称
- 名称:BibleNLP Corpus
- 别名:biblenlp-corpus
数据集描述
- 摘要:包含833种语言的部分和完整圣经翻译,按诗句对齐。
数据集特征
- 语言:涵盖833种语言,包括但不限于aai, aak, aau, aaz等。
- 许可证:数据集使用cc-by-4.0和其他许可证。
- 多语言性:支持翻译和多语言功能。
- 大小:数据集大小介于1M到10M之间。
- 来源:原始数据集。
- 任务类别:翻译。
数据集结构
- 数据字段:
- translation:包含语言列表和相应翻译列表。
- files:包含语言列表和对应的文件名列表。
- ref:包含诗句引用,格式为
<书本代码> <章节>:<诗句>。 - licenses:包含与文件列表对应的许可证列表。
- copyrights:包含与文件列表对应的版权信息。
使用方法
- 安装要求:需要安装tqdm, ijson, 和numpy。
- 语言配对:通过指定ISO 693-3语言代码的列表进行语言配对。
- 配对模式:支持单个诗句配对和全范围诗句配对。



