five

thebogko/bulgarian-spelling-mistakes

收藏
Hugging Face2024-03-14 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/thebogko/bulgarian-spelling-mistakes
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个保加利亚语句子的拼写错误数据集,通过自动在正确的句子中引入错误创建。数据集的主要目的是为保加利亚语的拼写纠错系统提供资源,支持的任务是文本到文本生成,即纠正源句子中的拼写错误,生成正确的版本。数据集仅支持保加利亚语。每个实例包含一个错误类型,错误类型描述了在错误句子中发现的错误,并在正确句子中进行了纠正。数据集的创建过程包括从保加利亚维基百科收集数据、进行词性标注和句子分割,并通过Python脚本引入拼写错误。数据集的使用可能对语言学习者和错误纠正社区的开发者有益,但也存在一些偏见和局限性。
提供机构:
thebogko
原始信息汇总

保加利亚拼写错误数据集

数据集描述

数据集概述

这是一个包含保加利亚语句子拼写错误的数据集,通过自动在正确句子中引入错误来创建。

支持的任务

  • text2text-generation:该数据集可用于训练拼写错误纠正模型,即纠正源句子中的拼写错误,得到正确版本。

语言

  • bg:该数据集仅支持保加利亚语。

数据集结构

数据实例

每个实例包含一个error_type,可以是四个预定义类别之一。error_type描述了erroeneous序列中的错误,该错误在correct序列中得到纠正。

json { "error_type": "article_misuse", "erroeneous": "Възстанието влияе на всички ни!", "correct": "Въстанието влияе на всички ни!" }

数据字段

  • error_type:一个字符串序列,可以是以下之一:
    • vowel_change
    • double_consonant
    • end_of_lemma_consonant
    • double_t_or_n
    • loss_of_t_or_d_sound
    • random_char
    • semantic
  • erroeneous:包含错误句子的字符串序列,错误-纠正对中最多包含三个错误
  • correct:正确句子的字符串序列,错误-纠正对中的正确版本

数据分割

该数据集未应用预定义分割,开发者可以根据任务自由选择分割方式。

数据集创建

策划理由

创建该数据集的主要动机:

  • 保加利亚语错误纠正NLP系统的资源稀缺,该数据集旨在鼓励开发和评估更多此类系统,
  • 保加利亚语NLP解决方案传统上采用机器学习方法,该数据集旨在鼓励开发最先进的模型(例如深度学习方法)

源数据

该数据集的源数据来自保加利亚语维基百科文章。

初始数据收集和规范化

数据收集过程如下:

  1. 数据收集:使用维基百科的API收集保加利亚语维基百科文章。
  2. 源文本经过词性标注和句子分割,使用(Berbatova M., Ivanov F.,2023)的工作中的工具。
  3. 只保留包含三个或更多单词且包含标记为动词的词的句子,因为许多句子只是文章标题、链接和其他不感兴趣的文本数据。

引入拼写错误

该数据集通过在正确句子中引入拼写错误来创建。

使用Python脚本引入预定义类型的错误,考虑错误的性质,算法如下:

  • 取一个源句子作为参考。
  • 引入预定义类型的错误(如果可能,某些句子不包含引入某些错误类型所需的先决条件)
  • 将正确和错误版本配对

这些错误仅应用于:

  • 大于三个字符的词,因为较短的词往往是功能词,
  • 不包含大写字母的词,假设可能是命名实体

生成的错误句子包含四种不同类型的变化,反映在error_type列中。以下示例中,第一个序列是正确形式,结果序列是错误形式。

  1. vowel_change:改变非重读音节的元音(例如,кръгъл -> кръгал)
  2. double_consonant:当两个相邻辅音的音强不同,将第一个辅音改为与第二个匹配(постановка -> постанофка)
  3. end_of_lemma_consonant:如果词尾辅音音强较强,则改为较弱的辅音(масив -> масиф
  4. double_t_or_n:当两个相同类型的н或т相邻时,去掉其中一个(пролетта -> пролета,единно -> едино)
  5. loss_of_t_or_d_sound:如果词中包含т或д,去掉该字母(вестник -> весник,звездна -> звезна)
  6. random_char:将词中的一个随机字符替换为另一个随机字符(момиче -> могиче)
  7. semantic:替换、删除、添加词中的一个字符或交换两个字符,使得结果词在语法上有效,但句子在语义上不再连贯(Момчето, което обичам. -> Момчето, котето обичам.)

个人和敏感信息

该数据集的来源是开放源数据集合(维基百科),其个人和/或敏感信息的风险与源数据相同。

使用数据的注意事项

数据集的社会影响

该数据集对语言学习者和错误纠正社区的开发者有益。

偏见讨论

error_type类别分布不均,某些错误比其他错误更常见。使用该数据集的开发者应注意这一点,以免创建有偏差的错误纠正系统/评估。

其他已知限制

该数据集未涵盖许多拼写错误,它是同类数据集中的第一个。希望它能鼓励人们创建更多类似的数据集和利用这些数据集的模型。

附加信息

许可信息

该数据集的许可为apache2.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作