thebogko/bulgarian-grammar-mistakes
收藏Hugging Face2024-03-14 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/thebogko/bulgarian-grammar-mistakes
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含保加利亚语语法错误句子的数据集,这些错误是通过在正确句子中自动引入错误生成的。数据集支持的任务是文本到文本生成,特别是语法错误纠正。数据集的语言仅为保加利亚语。数据集的创建动机是鼓励开发和评估更多的保加利亚语错误纠正NLP系统,并推动最先进模型的发展。数据集的结构包括错误类型、错误句子和正确句子。数据集的创建过程包括数据收集、初始数据收集和规范化、引入语法错误等步骤。
这是一个包含保加利亚语语法错误句子的数据集,这些错误是通过在正确句子中自动引入错误生成的。数据集支持的任务是文本到文本生成,特别是语法错误纠正。数据集的语言仅为保加利亚语。数据集的创建动机是鼓励开发和评估更多的保加利亚语错误纠正NLP系统,并推动最先进模型的发展。数据集的结构包括错误类型、错误句子和正确句子。数据集的创建过程包括数据收集、初始数据收集和规范化、引入语法错误等步骤。
提供机构:
thebogko
原始信息汇总
保加利亚语语法错误数据集
数据集描述
数据集摘要
这是一个包含保加利亚语句子及其语法错误的数据集,通过自动引入错误到正确句子中创建。
支持的任务
text2text-generation: 该数据集可用于训练语法错误纠正模型,即纠正源句子中的语法错误,生成正确的句子版本。
语言
bg: 该数据集仅支持保加利亚语。
数据集结构
数据实例
每个实例包含一个error_type,描述在erroeneous序列中发现的错误类型,并在correct序列中得到纠正。
json { "error_type": "article_misuse", "erroeneous": "Отдясно на централния е входа за свещеници и монаси.", "correct": "Отдясно на централния е входът за свещеници и монаси." }
数据字段
error_type: 字符串序列,可以是以下之一:article_misusepronoun_misuseincorrect_verb_suffix_menoun_adjective_disagreement
erroeneous: 错误句子的字符串序列correct: 正确句子的字符串序列
数据分割
数据集未进行预定义分割,开发者可以根据任务自由选择分割方式。
数据集创建
策划理由
创建该数据集的主要动机:
- 保加利亚语的错误纠正自然语言处理资源稀缺,该数据集旨在鼓励开发和评估更多此类系统,
- 保加利亚语自然语言处理的传统方法是机器学习方法,该数据集旨在鼓励开发最先进的模型(例如深度学习方法)
源数据
该数据集的源数据来自保加利亚语维基百科文章和OSCAR数据集。
初始数据收集和规范化
数据收集过程如下:
- 数据收集:
- 使用维基百科API收集保加利亚语维基百科文章。
- 将OSCAR的保加利亚语数据集的行添加到集合中。
- 源文本经过词性标注和句子分割,使用Bulgarian NLP pipeline in CLaRK System工具,由BulTreeBank Team开发。
- 仅保留包含三个或更多单词且包含标记为动词的单词的句子,因为许多句子只是文章标题、链接和其他不感兴趣的文本数据。
引入语法错误
通过在正确句子中引入预定义类型的语法错误来创建数据集。使用Python脚本引入错误,考虑错误的性质,算法如下:
- 取一个源句子作为参考。
- 如果可能,引入预定义类型的错误(某些句子不包含某些错误类型所需的必要前提)
- 将正确和错误版本配对
生成的错误句子包含四种不同类型的变化,反映在error_type列中。以下是一些示例:
article_misuse: 切换名词和形容词的完整/简短冠词形式- 将完整冠词替换为简短冠词:Политикът сподели плановете за новата реформа. -> Политика сподели плановете за новата реформа.
- 将简短冠词替换为完整冠词:Галена седна на стола. -> Галена седна на столът.
pronoun_misuse: 切换代词的格、数或语法性别形式- 疑问代词
- 将主格形式替换为宾格形式:Кой си милиш че си ти? -> Кого мислиш че си ти?
- 将宾格形式替换为主格形式:За кого говориш? -> За кой говориш?
- 关系代词
- 将主格形式替换为宾格形式:Който не работи, не трябва да яде. -> Когото не работи, не трябва да яде.
- 将宾格形式替换为主格形式:Няма човек тук, на когото Димо не се е похвалил. -> Няма човек тук, на който Димо не се е похвалил.
- 疑问代词
incorrect_verb_suffix_me: 在第一人称复数动词末尾添加字符е- пишем -> пишеме
- водим -> водиме
noun_adjective_disagreement: 在名词和形容词对中切换形容词的语法性别和数形式- 替换形容词-名词对中的形容词,考虑其语法性别:
- Ще ти е нужен голям монитор. -> Ще ти е нужен голяма монитор.
- Ще ти е нужен голям монитор. -> Ще ти е нужен голямо монитор.
- 替换形容词-名词对中的形容词,考虑其数(单数/复数):
- Мартине, виждал ли си ми кафявите очила? -> Мартине, виждал ли си ми кафявия очила?
- Сложи си нещата на бялата маса! -> Сложи си нещата на белите маса!
- 替换形容词-名词对中的形容词,考虑其语法性别:
个人和敏感信息
该数据集的源数据来自开源数据集合(维基百科和OSCAR),因此存在与这些数据相同的个人和/或敏感信息风险。
使用数据的注意事项
数据集的社会影响
该数据集对语言学习者和错误纠正社区的开发者有益。
偏见讨论
error_type类别分布不均,某些错误比其他错误更常见。开发者在使用该数据集时应意识到这一点,以避免创建有偏见的错误纠正系统/评估。
其他已知限制
该数据集未涵盖许多语法错误,作为同类数据集的首创,希望它能鼓励人们创建更多类似的数据集和利用这些数据集的模型。
附加信息
许可信息
该数据集的许可为apache2.0。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



