five

IoanRazvan/ro-romani

收藏
Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/IoanRazvan/ro-romani
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从在线版本的圣经(包括旧约和新约)中提取的罗马尼亚语和Kalderash Romani语的平行句子。数据集的结构包括书籍名称、章节号、罗马尼亚语文本、Kalderash Romani语文本和经文号。数据集的创建是为了一个学院项目,数据是从两个特定的网站抓取的,并根据书籍、章节和经文顺序进行了对齐。

该数据集包含从在线版本的圣经(包括旧约和新约)中提取的罗马尼亚语和Kalderash Romani语的平行句子。数据集的结构包括书籍名称、章节号、罗马尼亚语文本、Kalderash Romani语文本和经文号。数据集的创建是为了一个学院项目,数据是从两个特定的网站抓取的,并根据书籍、章节和经文顺序进行了对齐。
提供机构:
IoanRazvan
原始信息汇总

数据集卡片 "ro-romani"

数据集详情

该数据集包含从在线版圣经(旧约和新约)中提取的罗马尼亚语和Kalderash Romani语言的平行句子。

数据集结构

数据实例

一个示例如下:

json { book: GEN, chapter: 38, ro: A mai nascut iarasi un fiu, caruia i-a pus numele Sela; Iuda era la Czib cand a nascut ea., rom: Mai kărdea pale khă šeau, thai thodea lehkă anau Šela; o Iuda sas ando Czib, kana kărdeas oi., verse: 5 }

数据字段

  • book: 文本序列提取的书籍名称
  • chapter: 书籍章节编号
  • ro: 罗马尼亚语的文本序列
  • rom: Kalderash Romani语的文本序列
  • verse: 诗句编号

数据集创建

数据来源

数据从以下网站抓取:

  • https://www.ebible.ro/biblia/romana/cornilescu/ - 罗马尼亚语诗句
  • https://romani.global.bible/info - Kalderash Romani语诗句

数据收集和处理

诗句从上述网站单独抓取,并根据书籍、章节和诗句顺序进行对齐。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作