andyP/ro-paraphrase-bible

Name: andyP/ro-paraphrase-bible
Creator: andyP
Published: 2024-01-29 21:59:39
License: 暂无描述

Hugging Face2024-01-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/andyP/ro-paraphrase-bible

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个罗马尼亚语圣经版本的转述语料库，包含了10种不同版本的罗马尼亚语圣经的段落对。数据集通过FuzzyWuzzy库计算段落之间的相似度得分，并提供了匹配和非匹配的段落对。数据集总共有1,123,927条记录，其中904,815条是匹配的记录，218,977条是非匹配的记录。数据集的目的是用于句子相似性、转述和语义相似性评分等任务。

提供机构：

andyP

原始信息汇总

数据集概述

数据集描述

数据集摘要

名称: Romanian Bible Paraphrase Corpus
描述: 该数据集是从10种不同版本的罗马尼亚语圣经中创建的释义语料库。由于圣经中的每个段落都有唯一的编号，因此两个版本之间的对齐是直接的。我们编译了以下圣经版本的段落对组合：

Română Noul Testament Interconfesional 2009
Biblia în versuri 2014
Biblia Traducerea Fidela 2015
Biblia în Versiune Actualizată 2018
Ediția Dumitru Cornilescu revizuită 2022
Noua Traducere Românească
Noul Testament SBR 2023
Versiunea Biblia Romano-Catolică 2020
Biblia sau Sfânta Scriptură cu Trimiteri 1924, Dumitru Cornilescu
Traducere Literală Cornilescu 1931

为了提供两个段落之间的相似度分数，我们使用FuzzyWuzzy库计算两个文本的lemmatized版本的partial_token_sort_ratio（PTSoR）。最终的相似度分数计算如下：

score = 50 + ptsor // 2
其中 ptsor = partial_token_sort_ratio(lemmatize(text1), lemmatize(text2))

我们还提供了一组非匹配文本，这些文本是通过随机配对段落生成的。非匹配段落的分数计算如下：

score = int(ptsor / 2 + 10)

最终数据集包含904,815条相似记录和218,977条非匹配记录，总计1,123,927条记录。

语言

罗马尼亚语

数据集结构

数据实例

一个示例记录如下：

json { "text1": "Poporul a început să strige: „Este glasul lui Dumnezeu, nu al unui om!”", "text2": "Norodul a strigat: „Glas de Dumnezeu, nu de om!”", "score": 82 }

数据字段

text1, text2: 比较的段落
score: 0 - 100 的匹配分数（整数），分数大于50的记录为匹配

数据统计

匹配记录分数的统计:

count 904950.000000 mean 83.998228 std 7.083741 min 50.000000 25% 80.000000 50% 84.000000 75% 89.000000 max 100.000000

非匹配记录分数的统计:

count 218977.000000 mean 29.400873 std 3.339921 min 10.000000 25% 27.000000 50% 29.000000 75% 32.000000 max 40.000000

数据集创建

源数据

罗马尼亚语圣经翻译

使用数据的注意事项

其他已知限制

数据集偏向于某些古旧语言。此外，它涉及在常用语言中很少使用的宗教人物和短语结构。

附加信息

许可信息

该数据集根据Apache-2.0许可证发布和分发。

5,000+

优质数据集

54 个

任务类型

进入经典数据集