thebogko/bulgarian-spelling-mistakes

Name: thebogko/bulgarian-spelling-mistakes
Creator: thebogko
Published: 2024-03-14 15:29:49
License: 暂无描述

Hugging Face2024-03-14 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/thebogko/bulgarian-spelling-mistakes

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个保加利亚语句子的拼写错误数据集，通过自动在正确的句子中引入错误创建。数据集的主要目的是为保加利亚语的拼写纠错系统提供资源，支持的任务是文本到文本生成，即纠正源句子中的拼写错误，生成正确的版本。数据集仅支持保加利亚语。每个实例包含一个错误类型，错误类型描述了在错误句子中发现的错误，并在正确句子中进行了纠正。数据集的创建过程包括从保加利亚维基百科收集数据、进行词性标注和句子分割，并通过Python脚本引入拼写错误。数据集的使用可能对语言学习者和错误纠正社区的开发者有益，但也存在一些偏见和局限性。

提供机构：

thebogko

原始信息汇总

保加利亚拼写错误数据集

数据集描述

数据集概述

这是一个包含保加利亚语句子拼写错误的数据集，通过自动在正确句子中引入错误来创建。

支持的任务

text2text-generation：该数据集可用于训练拼写错误纠正模型，即纠正源句子中的拼写错误，得到正确版本。

语言

bg：该数据集仅支持保加利亚语。

数据集结构

数据实例

每个实例包含一个error_type，可以是四个预定义类别之一。error_type描述了erroeneous序列中的错误，该错误在correct序列中得到纠正。

json { "error_type": "article_misuse", "erroeneous": "Възстанието влияе на всички ни!", "correct": "Въстанието влияе на всички ни!" }

数据字段

error_type：一个字符串序列，可以是以下之一：
- vowel_change
- double_consonant
- end_of_lemma_consonant
- double_t_or_n
- loss_of_t_or_d_sound
- random_char
- semantic
erroeneous：包含错误句子的字符串序列，错误-纠正对中最多包含三个错误
correct：正确句子的字符串序列，错误-纠正对中的正确版本

数据分割

该数据集未应用预定义分割，开发者可以根据任务自由选择分割方式。

数据集创建

策划理由

创建该数据集的主要动机：

保加利亚语错误纠正NLP系统的资源稀缺，该数据集旨在鼓励开发和评估更多此类系统，
保加利亚语NLP解决方案传统上采用机器学习方法，该数据集旨在鼓励开发最先进的模型（例如深度学习方法）

源数据

该数据集的源数据来自保加利亚语维基百科文章。

初始数据收集和规范化

数据收集过程如下：

数据收集：使用维基百科的API收集保加利亚语维基百科文章。
源文本经过词性标注和句子分割，使用(Berbatova M., Ivanov F.,2023)的工作中的工具。
只保留包含三个或更多单词且包含标记为动词的词的句子，因为许多句子只是文章标题、链接和其他不感兴趣的文本数据。

引入拼写错误

该数据集通过在正确句子中引入拼写错误来创建。

使用Python脚本引入预定义类型的错误，考虑错误的性质，算法如下：

取一个源句子作为参考。
引入预定义类型的错误（如果可能，某些句子不包含引入某些错误类型所需的先决条件）
将正确和错误版本配对

这些错误仅应用于：

大于三个字符的词，因为较短的词往往是功能词，
不包含大写字母的词，假设可能是命名实体

生成的错误句子包含四种不同类型的变化，反映在error_type列中。以下示例中，第一个序列是正确形式，结果序列是错误形式。

vowel_change：改变非重读音节的元音（例如，кръгъл -> кръгал）
double_consonant：当两个相邻辅音的音强不同，将第一个辅音改为与第二个匹配（постановка -> постанофка）
end_of_lemma_consonant：如果词尾辅音音强较强，则改为较弱的辅音（масив -> масиф）
double_t_or_n：当两个相同类型的н或т相邻时，去掉其中一个（пролетта -> пролета，единно -> едино）
loss_of_t_or_d_sound：如果词中包含т或д，去掉该字母（вестник -> весник，звездна -> звезна）
random_char：将词中的一个随机字符替换为另一个随机字符（момиче -> могиче）
semantic：替换、删除、添加词中的一个字符或交换两个字符，使得结果词在语法上有效，但句子在语义上不再连贯（Момчето, което обичам. -> Момчето, котето обичам.）

个人和敏感信息

该数据集的来源是开放源数据集合（维基百科），其个人和/或敏感信息的风险与源数据相同。

使用数据的注意事项

数据集的社会影响

该数据集对语言学习者和错误纠正社区的开发者有益。

偏见讨论

error_type类别分布不均，某些错误比其他错误更常见。使用该数据集的开发者应注意这一点，以免创建有偏差的错误纠正系统/评估。

其他已知限制

该数据集未涵盖许多拼写错误，它是同类数据集中的第一个。希望它能鼓励人们创建更多类似的数据集和利用这些数据集的模型。

附加信息

许可信息

该数据集的许可为apache2.0。

5,000+

优质数据集

54 个

任务类型

进入经典数据集