thebogko/bulgarian-spelling-mistakes
收藏Hugging Face2024-03-14 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/thebogko/bulgarian-spelling-mistakes
下载链接
链接失效反馈官方服务:
资源简介:
这是一个保加利亚语句子的拼写错误数据集,通过自动在正确的句子中引入错误创建。数据集的主要目的是为保加利亚语的拼写纠错系统提供资源,支持的任务是文本到文本生成,即纠正源句子中的拼写错误,生成正确的版本。数据集仅支持保加利亚语。每个实例包含一个错误类型,错误类型描述了在错误句子中发现的错误,并在正确句子中进行了纠正。数据集的创建过程包括从保加利亚维基百科收集数据、进行词性标注和句子分割,并通过Python脚本引入拼写错误。数据集的使用可能对语言学习者和错误纠正社区的开发者有益,但也存在一些偏见和局限性。
提供机构:
thebogko
原始信息汇总
保加利亚拼写错误数据集
数据集描述
数据集概述
这是一个包含保加利亚语句子拼写错误的数据集,通过自动在正确句子中引入错误来创建。
支持的任务
text2text-generation:该数据集可用于训练拼写错误纠正模型,即纠正源句子中的拼写错误,得到正确版本。
语言
bg:该数据集仅支持保加利亚语。
数据集结构
数据实例
每个实例包含一个error_type,可以是四个预定义类别之一。error_type描述了erroeneous序列中的错误,该错误在correct序列中得到纠正。
json { "error_type": "article_misuse", "erroeneous": "Възстанието влияе на всички ни!", "correct": "Въстанието влияе на всички ни!" }
数据字段
error_type:一个字符串序列,可以是以下之一:- vowel_change
- double_consonant
- end_of_lemma_consonant
- double_t_or_n
- loss_of_t_or_d_sound
- random_char
- semantic
erroeneous:包含错误句子的字符串序列,错误-纠正对中最多包含三个错误correct:正确句子的字符串序列,错误-纠正对中的正确版本
数据分割
该数据集未应用预定义分割,开发者可以根据任务自由选择分割方式。
数据集创建
策划理由
创建该数据集的主要动机:
- 保加利亚语错误纠正NLP系统的资源稀缺,该数据集旨在鼓励开发和评估更多此类系统,
- 保加利亚语NLP解决方案传统上采用机器学习方法,该数据集旨在鼓励开发最先进的模型(例如深度学习方法)
源数据
该数据集的源数据来自保加利亚语维基百科文章。
初始数据收集和规范化
数据收集过程如下:
- 数据收集:使用维基百科的API收集保加利亚语维基百科文章。
- 源文本经过词性标注和句子分割,使用(Berbatova M., Ivanov F.,2023)的工作中的工具。
- 只保留包含三个或更多单词且包含标记为动词的词的句子,因为许多句子只是文章标题、链接和其他不感兴趣的文本数据。
引入拼写错误
该数据集通过在正确句子中引入拼写错误来创建。
使用Python脚本引入预定义类型的错误,考虑错误的性质,算法如下:
- 取一个源句子作为参考。
- 引入预定义类型的错误(如果可能,某些句子不包含引入某些错误类型所需的先决条件)
- 将正确和错误版本配对
这些错误仅应用于:
- 大于三个字符的词,因为较短的词往往是功能词,
- 不包含大写字母的词,假设可能是命名实体
生成的错误句子包含四种不同类型的变化,反映在error_type列中。以下示例中,第一个序列是正确形式,结果序列是错误形式。
- vowel_change:改变非重读音节的元音(例如,кръгъл -> кръгал)
- double_consonant:当两个相邻辅音的音强不同,将第一个辅音改为与第二个匹配(постановка -> постанофка)
- end_of_lemma_consonant:如果词尾辅音音强较强,则改为较弱的辅音(масив -> масиф)
- double_t_or_n:当两个相同类型的н或т相邻时,去掉其中一个(пролетта -> пролета,единно -> едино)
- loss_of_t_or_d_sound:如果词中包含т或д,去掉该字母(вестник -> весник,звездна -> звезна)
- random_char:将词中的一个随机字符替换为另一个随机字符(момиче -> могиче)
- semantic:替换、删除、添加词中的一个字符或交换两个字符,使得结果词在语法上有效,但句子在语义上不再连贯(Момчето, което обичам. -> Момчето, котето обичам.)
个人和敏感信息
该数据集的来源是开放源数据集合(维基百科),其个人和/或敏感信息的风险与源数据相同。
使用数据的注意事项
数据集的社会影响
该数据集对语言学习者和错误纠正社区的开发者有益。
偏见讨论
error_type类别分布不均,某些错误比其他错误更常见。使用该数据集的开发者应注意这一点,以免创建有偏差的错误纠正系统/评估。
其他已知限制
该数据集未涵盖许多拼写错误,它是同类数据集中的第一个。希望它能鼓励人们创建更多类似的数据集和利用这些数据集的模型。
附加信息
许可信息
该数据集的许可为apache2.0。



