five

andyP/ro-paraphrase-bible

收藏
Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/andyP/ro-paraphrase-bible
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个罗马尼亚语圣经版本的转述语料库,包含了10种不同版本的罗马尼亚语圣经的段落对。数据集通过FuzzyWuzzy库计算段落之间的相似度得分,并提供了匹配和非匹配的段落对。数据集总共有1,123,927条记录,其中904,815条是匹配的记录,218,977条是非匹配的记录。数据集的目的是用于句子相似性、转述和语义相似性评分等任务。
提供机构:
andyP
原始信息汇总

数据集概述

数据集描述

数据集摘要

名称: Romanian Bible Paraphrase Corpus
描述: 该数据集是从10种不同版本的罗马尼亚语圣经中创建的释义语料库。由于圣经中的每个段落都有唯一的编号,因此两个版本之间的对齐是直接的。我们编译了以下圣经版本的段落对组合:

  • Română Noul Testament Interconfesional 2009
  • Biblia în versuri 2014
  • Biblia Traducerea Fidela 2015
  • Biblia în Versiune Actualizată 2018
  • Ediția Dumitru Cornilescu revizuită 2022
  • Noua Traducere Românească
  • Noul Testament SBR 2023
  • Versiunea Biblia Romano-Catolică 2020
  • Biblia sau Sfânta Scriptură cu Trimiteri 1924, Dumitru Cornilescu
  • Traducere Literală Cornilescu 1931

为了提供两个段落之间的相似度分数,我们使用FuzzyWuzzy库计算两个文本的lemmatized版本的partial_token_sort_ratio(PTSoR)。最终的相似度分数计算如下:

score = 50 + ptsor // 2
其中 ptsor = partial_token_sort_ratio(lemmatize(text1), lemmatize(text2))

我们还提供了一组非匹配文本,这些文本是通过随机配对段落生成的。非匹配段落的分数计算如下:

score = int(ptsor / 2 + 10)

最终数据集包含904,815条相似记录和218,977条非匹配记录,总计1,123,927条记录。

语言

罗马尼亚语

数据集结构

数据实例

一个示例记录如下:

json { "text1": "Poporul a început să strige: „Este glasul lui Dumnezeu, nu al unui om!”", "text2": "Norodul a strigat: „Glas de Dumnezeu, nu de om!”", "score": 82 }

数据字段

  • text1, text2: 比较的段落
  • score: 0 - 100 的匹配分数(整数),分数大于50的记录为匹配

数据统计

匹配记录分数的统计:

count 904950.000000 mean 83.998228 std 7.083741 min 50.000000 25% 80.000000 50% 84.000000 75% 89.000000 max 100.000000

非匹配记录分数的统计:

count 218977.000000 mean 29.400873 std 3.339921 min 10.000000 25% 27.000000 50% 29.000000 75% 32.000000 max 40.000000

数据集创建

源数据

罗马尼亚语圣经翻译

使用数据的注意事项

其他已知限制

数据集偏向于某些古旧语言。此外,它涉及在常用语言中很少使用的宗教人物和短语结构。

附加信息

许可信息

该数据集根据Apache-2.0许可证发布和分发。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作