andyP/ro-paraphrase-bible
收藏数据集概述
数据集描述
数据集摘要
名称: Romanian Bible Paraphrase Corpus
描述: 该数据集是从10种不同版本的罗马尼亚语圣经中创建的释义语料库。由于圣经中的每个段落都有唯一的编号,因此两个版本之间的对齐是直接的。我们编译了以下圣经版本的段落对组合:
- Română Noul Testament Interconfesional 2009
- Biblia în versuri 2014
- Biblia Traducerea Fidela 2015
- Biblia în Versiune Actualizată 2018
- Ediția Dumitru Cornilescu revizuită 2022
- Noua Traducere Românească
- Noul Testament SBR 2023
- Versiunea Biblia Romano-Catolică 2020
- Biblia sau Sfânta Scriptură cu Trimiteri 1924, Dumitru Cornilescu
- Traducere Literală Cornilescu 1931
为了提供两个段落之间的相似度分数,我们使用FuzzyWuzzy库计算两个文本的lemmatized版本的partial_token_sort_ratio(PTSoR)。最终的相似度分数计算如下:
score = 50 + ptsor // 2
其中 ptsor = partial_token_sort_ratio(lemmatize(text1), lemmatize(text2))
我们还提供了一组非匹配文本,这些文本是通过随机配对段落生成的。非匹配段落的分数计算如下:
score = int(ptsor / 2 + 10)
最终数据集包含904,815条相似记录和218,977条非匹配记录,总计1,123,927条记录。
语言
罗马尼亚语
数据集结构
数据实例
一个示例记录如下:
json { "text1": "Poporul a început să strige: „Este glasul lui Dumnezeu, nu al unui om!”", "text2": "Norodul a strigat: „Glas de Dumnezeu, nu de om!”", "score": 82 }
数据字段
text1,text2: 比较的段落score: 0 - 100 的匹配分数(整数),分数大于50的记录为匹配
数据统计
匹配记录分数的统计:
count 904950.000000 mean 83.998228 std 7.083741 min 50.000000 25% 80.000000 50% 84.000000 75% 89.000000 max 100.000000
非匹配记录分数的统计:
count 218977.000000 mean 29.400873 std 3.339921 min 10.000000 25% 27.000000 50% 29.000000 75% 32.000000 max 40.000000
数据集创建
源数据
罗马尼亚语圣经翻译
使用数据的注意事项
其他已知限制
数据集偏向于某些古旧语言。此外,它涉及在常用语言中很少使用的宗教人物和短语结构。
附加信息
许可信息
该数据集根据Apache-2.0许可证发布和分发。



