thebogko/bulgarian-grammar-mistakes

Name: thebogko/bulgarian-grammar-mistakes
Creator: thebogko
Published: 2024-03-14 15:29:16
License: 暂无描述

Hugging Face2024-03-14 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/thebogko/bulgarian-grammar-mistakes

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含保加利亚语语法错误句子的数据集，这些错误是通过在正确句子中自动引入错误生成的。数据集支持的任务是文本到文本生成，特别是语法错误纠正。数据集的语言仅为保加利亚语。数据集的创建动机是鼓励开发和评估更多的保加利亚语错误纠正NLP系统，并推动最先进模型的发展。数据集的结构包括错误类型、错误句子和正确句子。数据集的创建过程包括数据收集、初始数据收集和规范化、引入语法错误等步骤。

提供机构：

thebogko

原始信息汇总

保加利亚语语法错误数据集

数据集描述

数据集摘要

这是一个包含保加利亚语句子及其语法错误的数据集，通过自动引入错误到正确句子中创建。

支持的任务

text2text-generation: 该数据集可用于训练语法错误纠正模型，即纠正源句子中的语法错误，生成正确的句子版本。

语言

bg: 该数据集仅支持保加利亚语。

数据集结构

数据实例

每个实例包含一个error_type，描述在erroeneous序列中发现的错误类型，并在correct序列中得到纠正。

json { "error_type": "article_misuse", "erroeneous": "Отдясно на централния е входа за свещеници и монаси.", "correct": "Отдясно на централния е входът за свещеници и монаси." }

数据字段

error_type: 字符串序列，可以是以下之一：
- article_misuse
- pronoun_misuse
- incorrect_verb_suffix_me
- noun_adjective_disagreement
erroeneous: 错误句子的字符串序列
correct: 正确句子的字符串序列

数据分割

数据集未进行预定义分割，开发者可以根据任务自由选择分割方式。

数据集创建

策划理由

创建该数据集的主要动机：

保加利亚语的错误纠正自然语言处理资源稀缺，该数据集旨在鼓励开发和评估更多此类系统，
保加利亚语自然语言处理的传统方法是机器学习方法，该数据集旨在鼓励开发最先进的模型（例如深度学习方法）

源数据

该数据集的源数据来自保加利亚语维基百科文章和OSCAR数据集。

初始数据收集和规范化

数据收集过程如下：

数据收集：

使用维基百科API收集保加利亚语维基百科文章。
将OSCAR的保加利亚语数据集的行添加到集合中。

源文本经过词性标注和句子分割，使用Bulgarian NLP pipeline in CLaRK System工具，由BulTreeBank Team开发。
仅保留包含三个或更多单词且包含标记为动词的单词的句子，因为许多句子只是文章标题、链接和其他不感兴趣的文本数据。

引入语法错误

通过在正确句子中引入预定义类型的语法错误来创建数据集。使用Python脚本引入错误，考虑错误的性质，算法如下：

取一个源句子作为参考。
如果可能，引入预定义类型的错误（某些句子不包含某些错误类型所需的必要前提）
将正确和错误版本配对

生成的错误句子包含四种不同类型的变化，反映在error_type列中。以下是一些示例：

article_misuse: 切换名词和形容词的完整/简短冠词形式
- 将完整冠词替换为简短冠词：Политикът сподели плановете за новата реформа. -> Политика сподели плановете за новата реформа.
- 将简短冠词替换为完整冠词：Галена седна на стола. -> Галена седна на столът.
pronoun_misuse: 切换代词的格、数或语法性别形式
- 疑问代词
  - 将主格形式替换为宾格形式：Кой си милиш че си ти? -> Кого мислиш че си ти?
  - 将宾格形式替换为主格形式：За кого говориш? -> За кой говориш?
- 关系代词
  - 将主格形式替换为宾格形式：Който не работи, не трябва да яде. -> Когото не работи, не трябва да яде.
  - 将宾格形式替换为主格形式：Няма човек тук, на когото Димо не се е похвалил. -> Няма човек тук, на който Димо не се е похвалил.
incorrect_verb_suffix_me: 在第一人称复数动词末尾添加字符е
- пишем -> пишеме
- водим -> водиме
noun_adjective_disagreement: 在名词和形容词对中切换形容词的语法性别和数形式
- 替换形容词-名词对中的形容词，考虑其语法性别：
  - Ще ти е нужен голям монитор. -> Ще ти е нужен голяма монитор.
  - Ще ти е нужен голям монитор. -> Ще ти е нужен голямо монитор.
- 替换形容词-名词对中的形容词，考虑其数（单数/复数）：
  - Мартине, виждал ли си ми кафявите очила? -> Мартине, виждал ли си ми кафявия очила?
  - Сложи си нещата на бялата маса! -> Сложи си нещата на белите маса!