five

bible-nlp/biblenlp-corpus

收藏
Hugging Face2024-12-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bible-nlp/biblenlp-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
BibleNLP Corpus数据集包含了833种语言的圣经翻译,按经文对齐。数据集的结构包括翻译、文件、引用、许可证和版权信息。使用该数据集需要安装tqdm、ijson和numpy库,并且可以通过指定ISO 693-3语言代码来选择语言对。数据集的来源是GitHub上的BibleNLP/ebible-corpus仓库。
提供机构:
bible-nlp
原始信息汇总

数据集概述

数据集名称

  • 名称:BibleNLP Corpus
  • 别名:biblenlp-corpus

数据集描述

  • 摘要:包含833种语言的部分和完整圣经翻译,按诗句对齐。

数据集特征

  • 语言:涵盖833种语言,包括但不限于aai, aak, aau, aaz等。
  • 许可证:数据集使用cc-by-4.0和其他许可证。
  • 多语言性:支持翻译和多语言功能。
  • 大小:数据集大小介于1M到10M之间。
  • 来源:原始数据集。
  • 任务类别:翻译。

数据集结构

  • 数据字段
    • translation:包含语言列表和相应翻译列表。
    • files:包含语言列表和对应的文件名列表。
    • ref:包含诗句引用,格式为 <书本代码> <章节>:<诗句>
    • licenses:包含与文件列表对应的许可证列表。
    • copyrights:包含与文件列表对应的版权信息。

使用方法

  • 安装要求:需要安装tqdm, ijson, 和numpy。
  • 语言配对:通过指定ISO 693-3语言代码的列表进行语言配对。
  • 配对模式:支持单个诗句配对和全范围诗句配对。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作